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Prefacio 


Objetivo del libro 


La primera edición de Econometría se publicó hace treinta años. Con el transcurso del tiempo 
se registraron avances importantes en la teoría y la práctica de la econometría. En cada una de 
las ediciones subsiguientes traté de incorporar los principales adelantos en el campo. La quinta 
edición continúa con esta tradición. 

Sin embargo, lo que no ha cambiado a lo largo de todos estos años es mi firme convicción de 
que la econometría puede enseñarse al principiante de manera intuitiva e informativa sin recurrir 
al álgebra matricial, el cálculo o la estadística, más allá de un nivel elemental. Parte del material 
es inherentemente técnico. En ese caso, lo coloqué en el apéndice correspondiente o remito al 
lector a las fuentes apropiadas. Incluso entonces, traté de simplificar el material técnico para que 
el lector pueda comprenderlo de manera intuitiva. 

La longevidad de este libro ha sido para mí una sorpresa muy grata, al igual que el hecho 
de que no sólo los estudiantes de economía y finanzas lo usan comúnmente, sino también los 
estudiantes e investigadores de otras disciplinas, como ciencias políticas, relaciones internacio- 
nales, agronomía y ciencias de la salud. La nueva edición, con la ampliación de los temas y las 
aplicaciones concretas que presenta, será muy útil para todos estos estudiantes. En esta edición 
dediqué todavía más atención a la pertinencia y oportunidad de los datos reales en el texto. De 
hecho, agregué unos quince ejemplos ilustrativos y más de treinta ejercicios al final de los capí- 
tulos. Además, actualicé los datos de aproximadamente dos docenas de ejemplos y más de veinte 
ejercicios de la edición anterior. 

Aunque me encuentro en la octava década de mi vida, no he perdido mi amor por la econo- 
metría, y me esfuerzo por mantenerme al tanto de los principales avances en el campo. Para ayu- 
darme en este empeño, me complace mucho contar ahora con la doctora Dawn Porter, profesora 
adjunta de estadística de la Marshall School of Business de la University of Southern California, 
en Los Ángeles, como coautora. Ambos trabajamos mucho para llevar a buen término la quinta 
edición de Econometría. 


Características principales de la quinta edición 


Antes de explicar los cambios específicos en diversos capítulos, vale la pena destacar las siguien- 
tes características de la nueva edición: 

1. Se actualizaron prácticamente todos los datos de los ejemplos ilustrativos. 

2. Se agregaron varios ejemplos. 

3. En varios capítulos incluimos ejemplos finales que ilustran los puntos tratados en el texto. 

4 


. Se incluyen en el libro listados de computadora relativos a varios ejemplos concretos. La ma- 
yoría de estos resultados se basan en EViews (versión 6) y STATA (versión 10), así como en 
MINITAB (versión 15). 


5. Diversos capítulos incluyen varios diagramas y gráficos nuevos. 
6. Diversos capítulos incluyen varios ejercicios basados en datos nuevos. 


7. Los datos de muestras pequeñas se incluyen en el libro, pero los de muestras grandes están 
en el sitio web del libro con el propósito de reducir el tamaño del texto. El sitio web también 
publicará todos los datos del libro, mismos que se actualizarán periódicamente. 


8. 


Prefacio XİX 


En algunos capítulos incluimos ejercicios para el aula que requieren que los alumnos obtengan 
datos por su cuenta y apliquen las distintas técnicas que se explican en el libro. También se 
incluyen algunas simulaciones Monte Carlo en el libro. 


Cambios específicos de la quinta edición 


A continuación se enumeran algunos cambios que se refieren de manera específica a ciertos 
capítulos: 


1. 


10. 


. Enel capítulo 21 se presenta un análisis minucioso de las series de tiempo estacionarias y no 


12. 


Los supuestos en los que se basa el modelo clásico de regresión lineal (MCRL) que se pre- 
sentan en el capítulo 3 ahora marcan una distinción cuidadosa entre regresoras fijas (varia- 
bles explicativas) y regresoras aleatorias. Analizamos la importancia de la distinción. 


En el apéndice del capítulo 6 se analizan las propiedades de los logaritmos, las transforma- 
ciones Box-Cox y varias fórmulas de crecimiento. 


. El capítulo 7 explica ahora no sólo el efecto marginal de una sola regresora sobre la variable 


dependiente, sino también los efectos de cambios simultáneos de todas las variables explica- 
tivas en la variable dependiente. Este capítulo también se reorganizó con la misma estructura 
que los supuestos del capítulo 3. 


En el capítulo 11 se presenta una comparación de las diferentes pruebas de heteroscedastici- 
dad. 

Hay un nuevo análisis del efecto de las rupturas estructurales en la autocorrelación en el 
capítulo 12. 

Los nuevos temas incluidos en el capítulo 13 son datos faltantes, término de error no normal 
y regresoras estocásticas, o aleatorias. 

El modelo de regresión no lineal que se analiza en el capítulo 14 tiene una aplicación con- 
creta de la transformación Box-Cox. 


El capítulo 15 contiene varios ejemplos nuevos que ilustran el uso de los modelos logit y 
probit en diversos campos. 


Revisamos e ilustramos cuidadosamente con varias aplicaciones el capítulo 16 sobre mode- 
los de regresión con datos en panel. 


El capítulo 17 incluye un análisis ampliado de las pruebas de causalidad de Sims y Granger. 


estacionarias, así como algunos problemas relacionados con varias pruebas de estacionarie- 
dad. 


El capítulo 22 incluye una exposición de razones por las que tomar las primeras diferencias 
de una serie de tiempo con el propósito de volverla estacionaria puede no ser la estrategia 
más adecuada en algunas situaciones. 


Además de estos cambios específicos, corregimos los errores tipográficos y de otro tipo de edi- 
ciones anteriores y simplificamos los análisis de varios temas en los diferentes capítulos. 


Organización y opciones 


La extensa cobertura en esta edición proporciona al maestro flexibilidad considerable para elegir 
los temas apropiados para el público al que se dirige. Aquí se dan algunas sugerencias respecto a 
cómo podría utilizarse la obra. 


Curso de un semestre para los no especialistas: Apéndice A, capítulos 1 al 9 y un repaso 
general de los capítulos 10, 11 y 12 (sin las demostraciones). 


Curso de un semestre para estudiantes de economía: Apéndice A y los capítulos 1 al 13. 


XX Prefacio 


Curso de dos semestres para estudiantes de economía: Apéndices A, B y C, y capítulos 1 
al 22. Los capítulos 14 y 16 son opcionales. Pueden omitirse algunos apéndices técnicos. 


Estudiantes de maestría y posgrado e investigadores: Este libro es un útil manual de 
consulta de los temas principales de la econometría. 


Suplementos 


Un sitio web muy completo contiene el siguiente material suplementario: 
—Datos del texto, así como datos adicionales de conjuntos grandes a los que se hace referencia 
en el libro; los autores actualizarán los datos periódicamente. 
—Un Manual de soluciones, preparado por Dawn Porter, proporciona las respuestas a todas las 
preguntas y problemas que se presentan en el texto. 
—Una biblioteca de imágenes digitales que contiene todos los gráficos y figuras del texto. 


Encontrará más información en www.mhhe.com/gujaratiSe. Consulte términos y condiciones 
con su representante McGraw-Hill más cercano. 
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Introducción 


¿Qué es la econometria? 


En términos literales econometría significa “medición económica”. Sin embargo, si bien es cierto 
que la medición es una parte importante de la econometría, el alcance de esta disciplina es mucho 
más amplio, como se deduce de las siguientes citas: 


La econometría, resultado de cierta perspectiva sobre el papel que desempeña la economía, consiste 
en la aplicación de la estadística matemática a los datos económicos para dar soporte empírico a los 
modelos construidos por la economía matemática y obtener resultados numéricos. ! 


. . «la econometria puede definirse como el análisis cuantitativo de fenómenos económicos reales, 
basados en el desarrollo simultáneo de la teoría y la observación, relacionados mediante métodos 
apropiados de inferencia.? 


La econometría se define como la ciencia social en la cual las herramientas de la teoría económica, 
las matemáticas y la inferencia estadística se aplican al análisis de los fenómenos económicos.* 


La econometría tiene que ver con la determinación empírica de las leyes económicas.* 
El arte del econometrista consiste en encontrar un conjunto de supuestos lo bastante específicos y 
realistas para que le permitan aprovechar de la mejor manera los datos con que cuenta.* 


Los econometristas... son una ayuda decisiva en el esfuerzo por disipar la mala imagen pública de la 
economía (cuantitativa o de otro tipo) considerada como una materia en la cual se abren cajas vacías, 
suponiendo la existencia de abrelatas, para revelar un contenido que diez economistas interpretarán 
de 11 maneras diferentes.* 


El método de la investigación econométrica busca en esencia una conjunción entre la teoría econó- 
mica y la medición real, con la teoría y la técnica de la inferencia estadística como puente.” 


1 Gerhard Tintner, Methodology of Mathematical Economics and Econometrics, The University of Chicago Press, 
Chicago, 1968, p. 74. 


2 P.A. Samuelson, T.C. Koopmans y J.R.N. Stone, “Report of the Evaluative Committee for Econometrica”, 
Econometrica, vol. 22, núm. 2, abril de 1954, pp. 141-146. 


3 Arthur S. Goldberger, Econometric Theory, John Wiley & Sons, Nueva York, 1964, p. 1. 

4H, Theil, Principles of Econometrics, John Wiley & Sons, Nueva York, 1971, p. 1. 

5 E. Malinvaud, Statistical Methods of Econometrics, Rand McNally, Chicago, 1966, p. 514. 

$ Adrian C. Darnell y J. Lynne Evans, The Limits of Econometrics, Edward Elgar, Hants, Inglaterra, 1990, p. 54. 


7T, Haavelmo, “The Probability Approach in Econometrics”, suplemento de Econometrica, vol. 12, 1944, 
prefacio, p. iii. 
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1.2 ¿Por qué una disciplina aparte? 


Como indican las definiciones anteriores, la econometría es una amalgama de teoría económica, 
economía matemática, estadística económica y estadística matemática. Aun así, la materia me- 
rece un estudio separado por las siguientes razones. 

La teoría económica hace afirmaciones o formula hipótesis de naturaleza sobre todo cuali- 
tativa. Por ejemplo, la teoría microeconómica establece que, si no intervienen otros factores, se 
espera que la reducción del precio de un bien aumente la cantidad demandada de ese bien. Así, 
la teoría económica postula una relación negativa o inversa entre el precio y la cantidad deman- 
dada de un bien. Pero la teoría por sí sola no proporciona medida numérica alguna de la relación 
entre los dos; no dice cuánto aumentará o se reducirá la cantidad como resultado de un cambio 
determinado en el precio del bien. El trabajo del econometrista es proporcionar tales estimacio- 
nes numéricas. En otras palabras, la econometría da contenido empírico a gran parte de la teoría 
económica. 

El interés principal de la economía matemática es expresar la teoría económica en una forma 
matemática (ecuaciones) sin preocuparse por la capacidad de medición o de verificación empí- 
rica de la teoría. La econometría, como ya apuntamos, se interesa sobre todo en la verificación 
empírica de la teoría económica. Como veremos, el econometrista suele emplear ecuaciones 
matemáticas, propuestas por el economista matemático, pero las expresa de forma que se presten 
para la prueba empírica. Y esta conversión de ecuaciones matemáticas en ecuaciones economé- 
tricas requiere una gran dosis de ingenio y destreza. 

La estadística económica se relaciona en primer lugar con la recopilación, procesamiento y 
presentación de cifras económicas en forma de gráficos y tablas. Éste es el trabajo del estadístico 
económico, cuya actividad principal consiste en recopilar cifras sobre el producto nacional bruto 
(PNB), empleo, desempleo, precios, etc. Los datos así reunidos constituyen la materia prima del 
trabajo econométrico. Pero el estadístico económico no va más allá de la recolección de informa- 
ción, pues no le conciernen las cifras recopiladas para probar las teorías económicas. Sin duda, 
es el econometrista quien se ocupa de realizar esta labor. 

Aunque la estadística matemática proporciona muchas herramientas para esta ciencia, el eco- 
nometrista a menudo necesita métodos especiales por la naturaleza única de la mayoría de las 
cifras económicas, pues no se generan como resultado de un experimento controlado. El econo- 
metrista, como el meteorólogo, suele depender de cifras que no controla directamente. Como 
observa Spanos, acertadamente: 


En econometría, el que construye el modelo a menudo se enfrenta a datos provenientes de la obser- 
vación más que de la experimentación. Esto tiene dos implicaciones importantes para la creación 
empírica de modelos en econometría. Primero, se requiere que quien elabore modelos domine muy 
distintas habilidades en comparación con las que se necesitan para analizar los datos experimenta- 
les... Segundo, la separación de quien recopila los datos y el analista exige que quien elabora mode- 
los se familiarice por completo con la naturaleza y la estructura de los datos en cuestión.? 
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¿Cómo proceden los econometristas en el análisis de un problema económico? Es decir, ¿cuál 
es su metodología? Aunque existen diversas escuelas de pensamiento sobre metodología eco- 
nométrica, aquí presentaremos la metodología tradicional o clásica, que aún predomina en la 
investigación empírica en economía y en las ciencias sociales y del comportamiento.” 


8 Aris Spanos, Probability Theory and Statistical Inference: Econometric Modeling with Observational Data, Cam- 
bridge University Press, Reino Unido, 1999, p. 21. 

2 Hay un análisis ilustrativo, si bien avanzado, de los métodos econométricos en David F. Hendry, Dynamic 
Econometrics, Oxford University Press, Nueva York, 1995. Véase también Aris Spanos, op. cit. 
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En términos generales, la metodología econométrica tradicional se ajusta a los siguientes li- 
neamientos: 
. Planteamiento de la teoría o de la hipótesis. 
. Especificación del modelo matemático de la teoría. 
. Especificación del modelo econométrico o estadístico de la teoría. 
. Obtención de datos. 
. Estimación de los parámetros del modelo econométrico. 
. Pruebas de hipótesis. 


. Pronóstico o predicción. 


o nu AU Ah NN 


. Utilización del modelo para fines de control o de políticas. 


Para ilustrar estos pasos, consideremos la conocida teoría keynesiana de consumo. 


1. Planteamiento de la teoría o hipótesis 
Keynes plantea: 


La ley psicológica fundamental... consiste en que los hombres [y las mujeres], como regla general y 
en promedio, están dispuestos a incrementar su consumo a medida que aumenta su ingreso, pero no 
en la misma cuantía del aumento en su ingreso. !? 


En pocas palabras, Keynes postula que la propensión marginal a consumir (PMC), es decir, 
la tasa de cambio del consumo generado por una unidad (digamos, un dólar) de cambio en el 
ingreso, es mayor que cero pero menor que uno. 


2. Especificación del modelo matemático de consumo 


A pesar de haber postulado una relación positiva entre el consumo y el ingreso, Keynes no espe- 
cifica la forma precisa de la relación funcional entre ambas cosas. Por simplicidad, un economista 
matemático puede proponer la siguiente forma de la función keynesiana de consumo: 


Y =P + PX 0< fr <l1 (1.3.1) 


donde Y = gasto de consumo y X = ingreso, y donde £1 y £2, conocidos como los parámetros 
del modelo, son, respectivamente, los coeficientes del intercepto y de la pendiente. 

El coeficiente de la pendiente 6, mide la PMC. En la figura 1.1 se presenta geométricamente 
la ecuación (1.3.1). Esta ecuación plantea que el consumo está relacionado linealmente con el 
ingreso, y es un ejemplo de un modelo matemático de la relación entre consumo e ingreso, lla- 
mada en economía función consumo. Un modelo es simplemente un conjunto de ecuaciones 
matemáticas. Si el modelo tiene una sola ecuación, como en el ejemplo anterior, se denomina 
modelo uniecuacional, mientras que si tiene más de una ecuación, se conoce como modelo 
multiecuacional (consideraremos más adelante este tipo de modelos). 

En la ecuación (1.3.1), la variable que aparece al lado izquierdo del signo de la igualdad 
se llama variable dependiente, y la(s) variable(s) del lado derecho se llama(n) variable(s) 
independiente(s), o explicativa(s). Así, en la función keynesiana de consumo, la ecuación 
(1.3.1), el consumo (gasto) es la variable dependiente, y el ingreso, la explicativa. 


10 John Maynard Keynes, The General Theory of Employment, Interest and Money, Harcourt Brace Jovanovich, 
Nueva York, 1936, p. 96. 
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FIGURA 1.1 
Función keynesiana de 
consumo. 


Gasto de consumo 


Bi 


Ingreso 


3. Especificación del modelo econométrico 
de consumo 

El modelo puramente matemático de la función de consumo dado en la ecuación (1.3.1) es de 
interés limitado para el econometrista, pues supone una relación exacta o determinista entre el 
consumo y el ingreso. Pero las relaciones entre las variables económicas suelen ser inexactas. 
Así, si fuéramos a obtener información sobre gasto de consumo e ingreso disponible (es decir, 
después de impuestos) de una muestra de, por ejemplo, 500 familias estadounidenses y graficar 
estos datos, con el gasto de consumo en el eje vertical y en el eje horizontal el ingreso disponi- 
ble, no esperaríamos que las 500 observaciones quedaran exactamente sobre la línea recta de la 
ecuación (1.3.1) porque, además del ingreso, otras variables afectan el gasto de consumo, como 
el tamaño de la familia, las edades de sus miembros, su religión, etcétera. 

Para dar cabida a relaciones inexactas entre las variables económicas, el econometrista modi- 
ficaría la función determinista de consumo en la ecuación (1.3.1) de la siguiente manera: 


Y =B1+P.X+u (1.3.2) 


donde u, conocida como término de perturbación o de error, es una variable aleatoria (esto- 
cástica) con propiedades probabilísticas bien definidas. El término de perturbación u representa 
todos los factores que afectan el consumo pero que no se consideran en el modelo en forma 
explícita. 

La ecuación (1.3.2) es un ejemplo de un modelo econométrico. Más técnicamente, dicha 
ecuación es un ejemplo de un modelo de regresión lineal, el principal interés de este libro. La 
función econométrica de consumo plantea como hipótesis que la variable dependiente Y (con- 
sumo) está relacionada linealmente con la variable explicativa X (Ingreso), pero que la relación 
entre las dos no es exacta: está sujeta a variaciones individuales. 

El modelo econométrico de la función de consumo se representa gráficamente como aparece 
en la figura 1.2. 


FIGURA 1.2 

Modelo econométrico de 
la función keynesiana 

de consumo. 
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4. Obtención de información 

Para estimar el modelo econométrico dado en la ecuación (1.3.2), esto es, para obtener los valores 
numéricos de 6, y 62, son necesarios los datos. Aunque tendremos más que decir en el siguiente 
capítulo sobre la importancia crucial de los datos para el análisis económico, por el momento 
observemos unas cifras relacionadas con la economía de Estados Unidos de 1960 a 2005, que 
se presentan en la tabla 1.1. La variable Y en esta tabla es el gasto de consumo personal (GCP) 
agregado (para la economía en su conjunto), y la variable X, el producto interno bruto (PIB), 
una medida del ingreso agregado, ambos medidos en miles de millones de dólares de 2000. Por 
consiguiente, los datos están en términos “reales”, es decir, se midieron en precios constantes 
(2000). Estos datos se graficaron en la figura 1.3 (cf. figura 1.2). Por el momento, haga caso omiso 
de la recta trazada en la figura. 


5. Estimación del modelo econométrico 


Ahora que tenemos los datos, la siguiente labor es estimar los parámetros de la función consumo. 
La estimación numérica de los parámetros da contenido empírico a la función consumo. En el 
capítulo 3 explicaremos el mecanismo real para estimar los parámetros. Por el momento, note 
que la técnica estadística conocida como análisis de regresión es la herramienta principal para 
obtener las estimaciones. Con esta técnica y los datos de la tabla I.1 obtuvimos los siguientes va- 
lores estimados de $1 y £2, a saber, —299.5913 y 0.7218. Así, la función consumo estimada es 


A 


Y, = -299.5913 + 0.7218X, (1.3.3) 


El acento circunflejo (sombrero) sobre Y indica que es un valor estimado.!! En la figura 1.3 se 
muestra la función consumo estimada (es decir, la línea de regresión). 


11 Por convención, un acento circunflejo (sombrero) sobre una variable o parámetro indica que es un valor 
estimado. 
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TABLA 1.1 

Datos sobre Y (gasto de 
consumo personal) y X 
(producto interno bruto, 
1960-2005), en miles de 
millones de dólares 

de 2000 


Fuente: Economic Report of the 


President, 2007, tabla B-2, p. 230. 


Año 

1960 
1961 
1962 
1963 
1964 
1965 
1966 
1967 
1968 
1969 
1970 
1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 
1981 
1982 
1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 
2004 
2005 


GCP(Y) 


1 597.4 
1 630.3 
VA 
1 781.6 
1 888.4 
2 007.7 
2121.8 
2 185.0 
2 SUNS 
2 396.4 
2 451.9 
2 545.5 
2703 
2183378 
2812.3 
2876.9 
310255 
3 164.1 
3 303.1 
3 383.4 
3 374.1 
3 422.2 
3 470.3 
3 668.6 
3 863.3 
4 064.0 
4 228.9 
4 369.8 
4 546.9 
4 675.0 
4 770.3 
4 778.4 
4 934.8 
5 099.8 
5290.7 
5 433.5 
5619.4 
5831.8 
6125.8 
6 438.6 
6 739.4 
6 910.4 
7 099.3 
LISAS 
V SUl 
7 841.2 


PIB(X) 


2 501.8 
2 560.0 
IND 
2 834.0 
2 998.6 
SIA 
3 399.1 
3 484.6 
3 652.7 
3 765.4 
SES 
3 898.6 
4 105.0 
4 341.5 
4 319.6 
4311.2 
4 540.9 
4 750.5 
5015.0 
5173.4 
5161.7 
S2317 
5 189.3 
5 423.8 
5813.6 
6 053.7 
6 263.6 
6 475.1 
6 742.7 
6 981.4 
7 AS 
7 100.5 
7 336.6 
Y DL 
IESO 
8 031.7 
8 328.9 
8 703.5 
9 066.9 
9 470.3 
9817.0 
9 890.7 
10 048.8 
10 301.0 
10 703.5 
11 048.6 


FIGURA 1.3 

Gasto de consumo perso- 
nal (Y) en relación con el 
PIB (X), 1960-2005, en 
miles de millones de dóla- 
res de 2000. 
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Como se aprecia en la figura I.3, la línea de regresión se ajusta bien a los datos, pues los puntos 
que corresponden a los datos están muy cercanos a ella. En esta gráfica vemos que de 1960 a 
2005 el coeficiente de la pendiente (es decir, la PMC) fue de alrededor de 0.72, lo que indica que 
para el periodo muestral un incremento de un dólar en el ingreso real produjo, en promedio, un 
incremento cercano a 72 centavos en el gasto de consumo real.!? Decimos “en promedio” porque 
la relación entre consumo e ingreso es inexacta; como se deduce de la figura 1.3, no todos los 
puntos correspondientes a los datos están exactamente en la recta de regresión. Con palabras sen- 
cillas, podemos decir que, de acuerdo con los datos, el promedio o media del gasto de consumo 
aumentó alrededor de 72 centavos por cada dólar de incremento en el ingreso real. 


6. Pruebas de hipótesis 


En el supuesto de que el modelo ajustado sea una aproximación razonablemente buena de la 
realidad, tenemos que establecer criterios apropiados para comprobar si los valores estimados 
obtenidos en una ecuación como la (1.3.3), por ejemplo, concuerdan con las expectativas de la 
teoría que estamos probando. De acuerdo con los economistas “positivos”, como Milton Fried- 
man, una teoría o hipótesis no verificable mediante la evidencia empírica no puede ser admisible 
como parte de la investigación científica. !? 

Como ya señalamos, Keynes esperaba que la PMC fuera positiva pero menor que 1. En el 
ejemplo observamos que la PMC es alrededor de 0.72. Pero antes de aceptar este resultado como 
confirmación de la teoría keynesiana de consumo, debemos averiguar si esta estimación está lo 


12 No se preocupe aquí por la forma como se obtuvieron estos valores; como veremos en el capítulo 3, el 
método estadístico de mínimos cuadrados produjo estos valores estimados. Asimismo, por el momento 
no se preocupe por el valor negativo del intercepto. 

13 Véase Milton Friedman, “The Methodology of Positive Economics”, Essays in Positive Economics, Univer- 
sity of Chicago Press, Chicago, 1953. 
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bastante abajo de la unidad para convencernos de que no se trata de un suceso debido al azar o 
de una peculiaridad de los datos. En otras palabras, ¿es 0.72 estadísticamente menor que 1? Si lo 
es, puede apoyar la teoría de Keynes. 

Tal confirmación o refutación de las teorías económicas con fundamento en la evidencia mues- 
tral se basa en una rama de la teoría estadística conocida como inferencia estadística (pruebas 
de hipótesis). A lo largo de este libro veremos cómo realizar en la práctica este proceso de in- 
ferencia. 


7. Pronóstico o predicción 
Si el modelo escogido no refuta la hipótesis o la teoría en consideración, servirá para predecir 
el (los) valor(es) futuro(s) de la variable dependiente Y, o de pronóstico, con base en el (los) 
valor(es) futuro(s) conocido(s) o esperado(s) de la variable explicativa, o predictora, X. 

Para ilustrarlo, suponga que queremos predecir la media del gasto de consumo para 2006. El 
valor del PIB para 2006 fue de 11 319.4 millones de dólares.! Colocamos esta cifra del PIB en 
el lado derecho de la ecuación (1.3.3) y obtenemos: 


Poos = —299.5913 + 0.7218 (11 319.4) 
= 7 870.7516 


(1.3.4) 


o casi 7 870 millones de dólares. Por tanto, con ese valor del PIB, la media o el promedio del 
gasto de consumo previsto es de alrededor de 7 870 millones de dólares. El valor real del gasto 
de consumo registrado en 2006 fue de 8 044 millones de dólares. El modelo estimado (1.3.3), por 
tanto, subpredijo el gasto de consumo real por casi 174 000 millones de dólares. Se diría que el 
error de predicción es de aproximadamente 174 000 millones de dólares, que representa alre- 
dedor de 1.5% del valor real del PIB para 2006. Cuando analicemos a profundidad el modelo de 
regresión lineal en los siguientes capítulos, trataremos de averiguar si un error de esa naturaleza 
es “pequeño” o “grande”. Pero lo que ahora importa es observar que tales errores de predicción 
son inevitables, dada la naturaleza estadística del análisis. 

Existe otro uso del modelo estimado (1.3.3). Suponga que el presidente decide proponer una 
reducción del impuesto sobre la renta. ¿Cuál será el efecto de dicha política en el ingreso y por 
consiguiente en el gasto de consumo, y a final de cuentas en el empleo? 

Suponga que como resultado de estos cambios de política se incrementa el gasto en inversión. 
¿Cuál será el efecto en la economía? De acuerdo con la teoría macroeconómica, el cambio en el 
ingreso generado por un cambio equivalente a un dólar, por ejemplo, en el gasto en inversión está 
dado por el multiplicador del ingreso (M), el cual se define como 


1 
=MG (1.3.5) 
Si utilizamos la PMC de 0.72 obtenida en la ecuación (1.3.3), este multiplicador se convierte en 
M = 3.57. Es decir, un aumento (o reducción) de un dólar en la inversión al final generará un in- 
cremento (o reducción) de más de tres veces en el ingreso; advierta que el multiplicador demora 
algún tiempo en actuar. 

El valor crítico en este cálculo es la PMC, pues M depende de él. Y este valor estimado de la 
PMC se obtiene de modelos de regresión como el de la ecuación (1.3.3). Así, un valor estimado 
cuantitativo de la PMC proporciona información valiosa para fines de politicas públicas. Al co- 
nocer la PMC, se puede predecir el curso futuro del ingreso, el gasto de consumo y el empleo que 
sigue a un cambio en las políticas fiscales del gobierno. 


14 Había datos disponibles sobre el GCP y el PIB para 2006, pero los omitimos a propósito con el objeto de 
ilustrar el tema que estudiamos en esta sección. Como veremos en los capítulos subsiguientes, es buena idea 
guardar parte de los datos con el objeto de averiguar cómo predicen el modelo ajustado las observaciones 
ajenas a la muestra. 


FIGURA 1.4 
Anatomía de la creación 
de modelos econométri- 
cos. 


1.3 Metodología de la econometria 9 


8. Uso del modelo para fines de control o de políticas 
Suponga que tenemos la función keynesiana de consumo estimada dada en (1.3.3). Suponga 
además que el gobierno considera que un nivel de gasto de aproximadamente 8 750 (miles de 
millones de dólares de 2000) mantendrá la tasa de desempleo en su nivel actual de cerca de 4.2 
por ciento (estimación para principios del 2006). ¿Qué nivel de ingreso garantizará la cantidad 
de gasto de consumo fijado como meta? 

Si los resultados de la regresión dados en la ecuación (1.3.3) parecen razonables, la aritmética 
simple mostrará que 


8 750 = —299.5913 + 0.7218(PIB2006) (1.3.6) 


que da X = 12 537, aproximadamente. Es decir, un nivel de ingresos de alrededor de 12 537 
(miles de millones) de dólares, con una PMC de cerca de 0.72, producirá un gasto aproximado 
de 8 750 millones de dólares. 

Como indican estos cálculos, un modelo estimado sirve para fines de control o de políticas pú- 
blicas. Mediante una mezcla apropiada de política fiscal y monetaria, el gobierno puede manejar 
la variable de control X para producir el nivel deseado de la variable objetivo Y. 

La figura I.4 resume la anatomía de la creación de los modelos econométricos clásicos. 


Elección entre modelos rivales 

Cuando una dependencia gubernamental (digamos, el Departamento de Comercio de Estados 
Unidos) recopila datos económicos, como los de la tabla I.1, no necesariamente tiene una teoría 
económica en mente. Por tanto, ¿cómo sabe en realidad que los datos respaldan la teoría keyne- 
siana de consumo? ¿Se debe acaso a que la función consumo keynesiana (es decir, la línea de re- 
gresión) de la figura I.3 se aproxima mucho a los puntos reales que representan a los datos? ¿Será 
posible que otro modelo (teoría) de consumo se ajuste igual de bien a los datos? Por ejemplo, 


Teoría económica 


Y 
Modelo matemático de la teoría 


Y 
Modelo econométrico de la teoría 


Datos 


Y 
Estimación del modelo econométrico 


Y 
Pruebas de hipótesis 


Y 
Pronóstico o predicción 


Y 
Uso del modelo para fines 
de control o de políticas 
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Milton Friedman elaboró un modelo de consumo, la hipótesis de ingreso permanente.'* Robert 
Hall también creó un modelo de consumo, llamado hipótesis del ciclo de vida del ingreso perma- 
nente.'* ¿Alguno o ambos modelos pueden también ajustarse a los datos de la tabla 1.1? 

En resumen, la interrogante con que se enfrenta en la práctica un investigador es: ¿cómo elegir 
entre modelos o hipótesis que compiten entre sí, dado un fenómeno determinado, como la rela- 
ción entre consumo e ingreso? Como observa Miller: 


Ningún encuentro con los datos significa un paso adelante hacia la confirmación genuina, a menos 
que la hipótesis se las arregle mejor con esos datos que algún rival natural. ... Lo que fortalece aquí 
a una hipótesis es una victoria que, al mismo tiempo, es una derrota para una posible rival.!? 


Entonces, ¿cómo elegir entre los varios modelos o hipótesis en disputa? Aquí Clive Granger da 
un consejo que vale la pena:!* 


Me gustaría proponer que en el futuro, cuando a uno se le presente una nueva teoría o modelo empi- 

rico, se plantee las siguientes preguntas: 

i) ¿Qué propósito tiene? ¿Qué tipo de decisiones económicas ayuda a tomar? 

ii) ¿Existe alguna evidencia presente que me permita evaluar su calidad en comparación con teorías 
o modelos alternos? 


Pienso que si se les da la debida atención a estos planteamientos se fortalecerá la investigación y el 
análisis económicos. 


Conforme avancemos en este libro, saldrán al paso diversas hipótesis que compiten entre sí y 
que tratan de explicar varios fenómenos económicos. Por ejemplo, los estudiantes de economía 
conocen ya el concepto de la función producción, que representa básicamente una relación entre 
la producción y los insumos (capital y trabajo). En la bibliografía, dos funciones producción muy 
conocidas son la de Cobb-Douglas y la de elasticidad constante de sustitución. Con los datos de 
producción e insumos tendremos que averiguar cuál de las dos funciones producción, si acaso 
alguna lo hace, se ajusta bien a los datos. 

La metodología econométrica clásica, consistente en los ocho pasos que acabamos de presen- 
tar, es neutral en el sentido de que sirve para probar cualquiera de estas hipótesis rivales. 

¿Es posible elaborar una metodología lo bastante amplia para abarcar hipótesis contendientes? 
La respuesta implica un tema polémico e intrincado que analizaremos en el capítulo 13, tras en- 
tender la teoría econométrica necesaria. 


I.4 Tipos de econometría 


Como deja entrever el esquema de clasificación en la figura I.5, la econometría se divide en dos 
amplias categorías: econometría teórica y econometría aplicada. En cada categoría se puede 
tratar la materia según la tradición clásica o la bayesiana. En este libro destacamos el enfoque 
clásico. Para el enfoque bayesiano, el lector puede consultar las referencias al final del capítulo. 


15 Milton Friedman, A Theory of Consumption Function, Princeton University Press, Princeton, Nueva Jersey, 
1957. 

16R, Hall, “Stochastics Implications of the Life Cycle Permanent Income Hypothesis: Theory and Evidence”, 
Journal of Political Economy, 1978, vol. 86, pp. 971-987. 

17 R.W. Miller, Fact and Method: Explanation, Confirmation, and Reality in the Nature and Social Sciences, Prin- 
ceton University Press, Princeton, Nueva Jersey, 1978, p. 176. 

18 Clive W.J. Granger, Empirical Modeling in Economics, Cambridge University Press, Gran Bretaña, 1999, 

p. 58. 


FIGURA 1.5 
Categorías de la econo- 
metría. 
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Econometría 


mooo 


Teórica Aplicada 


Clásica Bayesiana Clásica Bayesiana 


La econometria teórica se relaciona con la elaboración de métodos apropiados para medir las 
relaciones económicas especificadas por los modelos econométricos. En este aspecto, la eco- 
nometría se apoya en gran medida en la estadística matemática. Por ejemplo, un método muy 
popular en este libro es el de mínimos cuadrados. La econometría teórica debe expresar los 
supuestos de este método, sus propiedades y lo que les sucede cuando no se cumplen uno o más 
de los supuestos del método. 

En la econometria aplicada utilizamos herramientas de la econometría teórica para estudiar 
algunos campos especiales de la economía y los negocios, como la función de producción, la 
función de inversión, las funciones de demanda y de oferta, la teoría de portafolio, etcétera. 

Este libro se refiere en gran parte al desarrollo de los métodos econométricos, sus supuestos, 
usos y limitaciones. Ilustramos estos métodos con ejemplos en diversas áreas de la economía y 
los negocios. Pero éste no es un libro de econometría aplicada en el sentido de que investigue a 
fondo un campo particular de aplicación económica. Para esa labor existen textos especializados. 
Al final de esta obra proporcionamos referencias de algunos de ellos. 


matemáticos y estadísticos 


A pesar de que este libro está escrito en un nivel elemental, el autor supone que el lector conoce 
los conceptos básicos de la estimación estadística y las pruebas de hipótesis. Sin embargo, para 
quienes deseen refrescar sus conocimientos, en el apéndice A se ofrece una revisión amplia pero 
no técnica de los conceptos estadísticos básicos de esta obra. Respecto de las matemáticas, es 
deseable, aunque no esencial, estar más o menos al día con las nociones de cálculo diferencial. 
Si bien la mayoría de los textos universitarios de econometría emplea con libertad el álgebra ma- 
tricial, deseo aclarar que este libro no la requiere. Sostengo la firme convicción de que las ideas 
fundamentales de econometría pueden transmitirse sin álgebra matricial. Sin embargo, para el 
beneficio del estudiante amigo de las matemáticas, el apéndice C resume la teoría de regresión 
básica en notación matricial. Para estos estudiantes, el apéndice B proporciona un resumen su- 
cinto de los principales resultados del álgebra matricial. 


I.6 La función de la computadora 


El análisis de regresión, herramienta de uso diario de la econometría, no sería posible hoy en 
día sin la computadora y el software estadístico. (Créanme, yo crecí en la generación de la regla 
de cálculo.) Por fortuna, ya existen muchos paquetes de regresión excelentes, tanto para las 
computadoras centrales (mainframe) como para las microcomputadoras, y con el tiempo la lista 
crece. Los paquetes de software de regresión, como ET, LIMDEP, SHAZAM, MICRO TSP, 
MINITAB, EVIEWS, SAS, SPSS, BMD, STATA, Microfit y PcGive tienen la mayoría de las 
técnicas econométricas y las pruebas analizadas en este libro. 
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En esta obra ocasionalmente pediremos al lector realizar experimentos Monte Carlo con uno 
o más paquetes estadísticos. Los experimentos Monte Carlo son ejercicios “divertidos” que capa- 
citarán al lector para apreciar las propiedades de diversos métodos estadísticos analizados en este 
libro. Detallaremos sobre los experimentos Monte Carlo en las secciones pertinentes. 


1.7 Lecturas sugeridas 


El tema de la metodología econométrica es vasto y controvertido. Para los interesados en este 
tema, sugiero los siguientes libros: 


Neil de Marchi y Christopher Gilbert, eds., History and Methodology of Econometrics, Oxford 
University Press, Nueva York, 1989. En esta colección de lecturas se analizan los primeros traba- 
jos sobre metodología econométrica. El análisis se extiende al método británico de la econome- 
tría relacionado con cifras de series de tiempo, es decir, datos recopilados a través de un periodo 
determinado. 

Wojciech W. Charemza y Derek F. Deadman, New Directions in Econometric Practice: Gene- 
ral to Specific Modelling, Cointegration and Vector Autoregression, Edward Elgar, Hants, Ingla- 
terra, 1997. Los autores critican el método tradicional de la econometría y dan una exposición 
detallada de nuevos enfoques a la metodología econométrica. 

Adrian C. Darnell y J. Lynne Evans, The Limits of Econometrics, Edward Elgar, Hants, Ingla- 
terra, 1990. Este libro presenta un análisis, en cierta medida equilibrado, de los diversos enfo- 
ques metodológicos a la econometría, con una renovada fidelidad a la metodología econométrica 
tradicional. 

Mary S. Morgan, The History of Econometric Ideas, Cambridge University Press, Nueva York, 
1990. La autora proporciona una perspectiva histórica excelente sobre la teoría y la práctica de la 
econometría, con un análisis a fondo de las primeras contribuciones de Haavelmo (Premio Nobel 
de Economía 1990) a la econometría. Con el mismo espíritu, David F. Hendry y Mary S. Morgan 
antologaron escritos seminales para la econometría en The Foundation of Econometric Analisis, 
Cambridge University Press, Gran Bretaña, 1995, con el objeto de mostrar la evolución de las 
ideas econométricas a través del tiempo. 

David Colander y Reuven Brenner, eds., Educating Economists, University of Michigan Press, 
Ann Arbor, Michigan, 1992. El texto presenta un punto de vista crítico, en ocasiones agnóstico, 
de la enseñanza y práctica de la economía. 

Para consultar sobre los temas de estadística y econometría bayesianas, los siguientes libros 
pueden ser útiles: John H. Dey, Data in Doubt, Basil Blackwell, Oxford, University Press, Ingla- 
terra, 1985; Peter M. Lee, Bayesian Statistics: An Introduction, Oxford University Press, Inglate- 
rra, 1989; y Dale J. Porier, Intermediate Statistics and Econometrics: A Comparative Approach, 
MIT Press, Cambridge, Massachusetts, 1995. Una referencia avanzada es Arnold Zellner, 4n 
Introduction to Bayesian Inference in Econometrics, John Wiley & Sons, Nueva York, 1971. Otro 
libro de consulta avanzada es Palgrave Handbook of Econometrics. Volumen I. Econometric 
Theory, Terence C. Mills y Kerry Patterson, eds., Palgrave Macmillan, Nueva York, 2007. 
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Modelos de regresión 
uniecuacionales 


En la parte 1 de este texto se presentan los modelos de regresión uniecuacionales. En estos mo- 
delos se expresa una variable, llamada dependiente, como función lineal de una o más variables, 
llamadas explicativas. En modelos de este tipo se supone que si existen relaciones causales entre 
las variables dependientes y las explicativas, éstas van en una sola dirección: de las variables 
explicativas a la variable dependiente. 

En el capítulo 1 se hace una exposición relacionada con la interpretación, tanto histórica como 
moderna, del término regresión y se ilustran las diferencias entre las dos interpretaciones con 
diversos ejemplos tomados de la economía y de otros campos. 

En el capítulo 2 se presentan algunos conceptos fundamentales del análisis de regresión con 
ayuda del modelo de regresión lineal con dos variables, en el cual la variable dependiente se ex- 
presa como función lineal de una sola variable explicativa. 

En el capítulo 3 continúa el manejo del modelo con dos variables y se introduce lo que se 
conoce como el modelo clásico de regresión lineal, que tiene diversos supuestos simplificado- 
res. Con estos supuestos se presenta el método de mínimos cuadrados ordinarios (MCO) para 
estimar los parámetros del modelo de regresión con dos variables. La aplicación del método de 
MCO es sencilla y tiene algunas propiedades estadísticas muy convenientes. 

En el capítulo 4 se introduce el modelo clásico de regresión lineal normal (de dos variables), 
modelo que supone que la variable aleatoria dependiente sigue una distribución de probabilidad 
normal. Con este supuesto los estimadores MCO obtenidos en el capítulo 3 adquieren algunas 
propiedades estadísticas más sólidas que las de los modelos clásicos de regresión lineal no nor- 
males. Estas propiedades permiten la inferencia estadística y, en particular, las pruebas de hipó- 
tesis. 

El capítulo 5 se dedica a las pruebas de hipótesis, y se pretende averiguar si los coeficientes 
de regresión estimados son compatibles con los valores hipotéticos de tales coeficientes, valo- 
res hipotéticos sugeridos por la teoría y/o por el trabajo empírico previo. 

En el capítulo 6 se consideran algunas extensiones del modelo de regresión con dos variables. 
En particular, se analizan temas como: 1) regresión a través del origen, 2) escalas y unidades de 
medición, y 3) formas funcionales de modelos de regresión, como doblelogarítmicos, semiloga- 
rítmicos y recíprocos. 

En el capítulo 7 se considera el modelo de regresión múltiple, en el cual hay más de una va- 
riable explicativa, y se muestra cómo se extiende el método MCO para estimar los parámetros 
de tales modelos. 
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En el capítulo 8 se amplían los conceptos del capítulo 5 al modelo de regresión múltiple y se 
señalan algunas complicaciones propias de diversas variables explicativas. 

El capítulo 9, que trata sobre variables explicativas dicótomas o cualitativas, concluye la pri- 
mera parte del texto. Este capítulo destaca que no todas las variables explicativas necesitan ser 
cuantitativas (por ejemplo, en escala de razón). Variables como género, raza, religión, nacionali- 
dad y lugar de residencia no son cuantificables de manera directa, si bien desempeñan un valioso 
papel en la explicación de muchos fenómenos económicos. 


Capítulo 


Naturaleza del análisis 
de regresión 


Como se mencionó en la introducción, la regresión es una herramienta fundamental de la econo- 
metría; en este capítulo se considera muy brevemente la naturaleza de este instrumento. 


1.1 Origen histórico del término regresión 


Francis Galton acuñó el término regresión. En un famoso ensayo, Galton planteó que, a pesar de 
la tendencia de los padres de estatura alta a procrear hijos altos y los padres de estatura baja, hijos 
bajos, la estatura promedio de los niños de padres de una estatura determinada tendía a despla- 
zarse, o “regresar”, a la estatura promedio de la población total.' En otras palabras, la estatura de 
los hijos de padres inusualmente altos o inusualmente bajos tiende a dirigirse a la estatura pro- 
medio de la población. La ley de regresión universal de Galton fue confirmada por su amigo 
Karl Pearson, quien reunió más de mil registros de estaturas de miembros de grupos familiares.? 
Pearson descubrió que la estatura promedio de los hijos de un grupo de padres de estatura alta 
era menor que la estatura de sus padres, y que la estatura promedio de los hijos de un grupo de 
padres de estatura baja era mayor que la estatura de sus padres; es decir, se trata de un fenómeno 
mediante el cual los hijos altos e hijos bajos “regresan” por igual a la estatura promedio de todos 
los demás. En palabras de Galton, se trata de una “regresión a la mediocridad”. 


1.2 Interpretación moderna de la regresión 


La interpretación moderna de la regresión es, sin embargo, muy diferente. En términos generales, 
se afirma que: 


El análisis de regresión trata del estudio de la dependencia de una variable (variable dependiente) 
respecto de una o más variables (variables explicativas) con el objetivo de estimar o predecir la media 
o valor promedio poblacional de la primera en términos de los valores conocidos o fijos (en muestras 
repetidas) de las segundas. 


1 Francis Galton, “Family Likeness in Stature”, Proceedings of Royal Society, Londres, vol. 40, 1886, pp. 42-72. 
2 K. Pearson y A. Lee, “On the Laws of Inheritance”, Biometrika, vol. 2, noviembre de 1903, pp. 357-462. 
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FIGURA 1.1 
Distribución hipotética de 
las estaturas de los hijos 
correspondientes a las es- 
taturas de los padres. 


La importancia trascendental de este enfoque del análisis de regresión se verá claramente sobre 
la marcha, pero algunos ejemplos sencillos aclararán este concepto básico. 


Ejemplos 

1. Considere de nuevo la ley de regresión universal de Galton. A él le interesaba averiguar las 
razones de la estabilidad en la distribución de estaturas dentro de una población. En el enfoque 
moderno, la preocupación no es esta explicación, sino averiguar cómo cambia la estatura pro- 
medio de los hijos dada la estatura de los padres. En otras palabras, lo que interesa es predecir 
la estatura promedio de los hijos a partir de la estatura de sus padres. Para ver cómo hacerlo, 
considere la figura 1.1, que corresponde a un diagrama de dispersión. La figura muestra la 
distribución de las estaturas de los hijos en una población hipotética, correspondiente al conjunto 
de valores dados o fijos de las estaturas de los padres. Observe que, para cualquier estatura de 
un padre, existe un rango (distribución) de estaturas de los hijos. Sin embargo, observe también 
que, a pesar de la variabilidad de la estatura de los hijos conforme al valor de la estatura de los 
padres, la estatura promedio de los hijos aumenta, por lo general, en la medida en que lo hace la 
estatura de los padres. Para demostrar esto con claridad, las cruces dentro de los círculos en la fi- 
gura indican la estatura promedio de los hijos que corresponde a una estatura determinada de los 
padres. Estos promedios se conectan para obtener la línea recta de la figura. Esta línea, como 
veremos, se conoce como recta de regresión. Dicha recta muestra que el promedio de la estatura 
de los hijos aumenta conforme crece la de los padres.* 


2. Considere el diagrama de dispersión en la figura 1.2, que presenta la distribución de una 
población hipotética de estaturas de niños en edades fijas. Observe que existe un rango (distribu- 
ción) de estaturas correspondiente a cada edad. Es obvia la improbabilidad de que todos los niños 
de una edad determinada tengan estaturas idénticas. Pero, en promedio, la estatura se incrementa 
con la edad (por supuesto, hasta cierta edad), que se ve con claridad al trazar una recta (la recta de 
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Estatura del padre, en pulgadas 


3 En esta etapa de estudio del tema, denominaremos a esta recta de regresión simplemente recta que 
conecta el valor de la media, o promedio, de la variable dependiente (la estatura de los hijos) que corresponde a 
un valor dado de la variable explicativa (la estatura de los padres). Observe que esta recta tiene una pendiente 
positiva; pero la pendiente es menor que 1, lo cual está de acuerdo con el concepto de Galton de regresión 
a la mediocridad. (¿Por qué?) 


FIGURA 1.2 
Distribución hipotética de 
estaturas correspondientes 
a edades seleccionadas. 
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regresión) por los puntos dentro de los círculos, los cuales representan la estatura promedio de 
determinadas edades. Por consiguiente, si se conoce la edad, se predice la estatura promedio de di- 
cha edad mediante la recta de regresión. 


3. Al considerar lo referente a la economía, a un economista quizá le interese estudiar la 
dependencia del consumo personal respecto del ingreso personal neto disponible (después de 
impuestos). Con un análisis de este tipo se calcula la propensión marginal a consumir (PMC), es 
decir, el cambio promedio del consumo ante un cambio, digamos, de un dólar en el ingreso real 
(ver la figura 1.3). 


4. Un monopolista que puede fijar el precio o la producción (pero no ambos factores) tal vez 
desee conocer la demanda de un producto con diversos precios. Tal experimento permite estimar 
la elasticidad del precio (es decir, la respuesta a variaciones del precio) de la demanda del pro- 
ducto y permite determinar el precio que maximiza las ganancias. 


5. Un economista laboral quizá desee estudiar la tasa de cambio de los salarios monetarios o 
nominales en relación con la tasa de desempleo. Las cifras históricas aparecen en el diagrama de 
dispersión de la figura 1.3. La curva de esta figura es un ejemplo de la célebre curva de Phillips, 
que relaciona los cambios en los salarios nominales con la tasa de desempleo. Un diagrama de 
dispersión de este tipo permite al economista laboral predecir el cambio promedio en los salarios 
nominales con una cierta tasa de desempleo. Tal conocimiento sirve para establecer supuestos so- 
bre el proceso inflacionario en una economía, pues es probable que los incrementos en los sala- 
rios monetarios se reflejen en incrementos de precios. 


6. En la economía monetaria se sabe que, si se mantienen constantes otros factores, cuanto 
mayor sea la tasa de inflación x, menor será la proporción k del ingreso que la gente deseará man- 
tener en forma de dinero, como se deduce de la figura 1.4. La pendiente de esta recta representa 
el cambio en k con un cambio en la tasa de inflación. Un análisis cuantitativo de esta relación 
permite al economista predecir la cantidad de dinero, como proporción del ingreso, que la gente 
deseará mantener con diversas tasas de inflación. 


7. El director de marketing de una compañía tal vez quiera conocer la relación entre la de- 
manda del producto de su compañía con el gasto de publicidad, por ejemplo. Un estudio de este 
tipo es de gran ayuda para encontrar la elasticidad de la demanda respecto de los gastos publi- 
citarios, es decir, el cambio porcentual de la demanda en respuesta a un cambio de 1 por ciento, 
por ejemplo, en el presupuesto de publicidad. Saber esto sirve para determinar el presupuesto 


ez 


óptimo” de publicidad. 
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FIGURA 1.3 
Curva hipotética de 
Phillips. 


FIGURA 1.4 
Tenencia de dinero en 
relación con la tasa de 
inflación 7. 
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8. Por último, un agrónomo tal vez se interese en estudiar la relación entre el rendimiento de 
un cultivo, digamos de trigo, y la temperatura, lluvia, cantidad de sol y fertilizantes. Un análisis 
de dependencia de ese tipo facilitaría la predicción o el pronóstico del rendimiento medio del 
cultivo según la información sobre las variables explicativas. 


El lector puede proporcionar una amplia gama de ejemplos similares de la dependencia de una 
variable respecto de otra o más variables. Las técnicas del análisis de regresión que se explican en 
este texto están diseñadas especialmente para estudiar dicha dependencia entre variables. 
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1.3 Relaciones estadísticas y relaciones deterministas 


En los ejemplos de la sección 1.2 se observa que en el análisis de regresión interesa lo que se 
conoce como dependencia estadística entre variables, no así la funcional o determinista, propia 
de la física clásica. En las relaciones estadísticas entre variables se analizan, en esencia, variables 
aleatorias o estocásticas,?* es decir, variables con distribuciones de probabilidad. Por otra parte, 
en la dependencia funcional o determinista también se manejan variables, pero no son aleatorias 
o estocásticas. 

Por ejemplo, el rendimiento de un cultivo depende de la temperatura, lluvia, Sol y fertilizantes, 
y dicha dependencia es de naturaleza estadística porque las variables explicativas, si bien son im- 
portantes, no permiten al agrónomo predecir en forma exacta el rendimiento del cultivo debido a 
los errores propios de la medición de estas variables y a otra serie de factores (variables) que en 
conjunto afectan el rendimiento pero son difíciles de identificar individualmente. De esta manera, 
habrá alguna variabilidad “intrínseca” o aleatoria en la variable dependiente, el rendimiento del 
cultivo, que no puede explicarse en su totalidad sin importar cuántas variables explicativas se 
consideren. 

Los fenómenos deterministas, por otra parte, implican relaciones como la ley de la gravedad 
de Newton, la cual establece que toda partícula en el universo atrae a cualquier otra partícula 
con una fuerza directamente proporcional al producto de sus masas e inversamente proporcio- 
nal al cuadrado de la distancia entre ellas. En términos matemáticos, F = k(mjm2/r?), donde 
F = fuerza, mı y m son las masas de las dos partículas, r = distancia y k = constante de pro- 
porcionalidad. Otro ejemplo es el de la ley de Ohm, la cual postula que para conductores metá- 
licos dentro de un intervalo limitado de temperatura, la corriente C es proporcional al voltaje V; 
es decir, C = G) V, donde l es la constante de proporcionalidad. Otros ejemplos de relaciones 
deterministas son la ley de los gases de Boyle, la ley de la electricidad de Kirchhoff y la ley del 
movimiento de Newton. 

En este texto no interesan tales relaciones deterministas. Por supuesto, de haber errores de 
medición, por ejemplo, en la k de la ley de la gravedad de Newton, la relación que de otra forma 
habría sido determinista se convierte en una relación estadística. En esta situación es posible 
predecir la fuerza en forma aproximada sólo a partir de un valor dado de k (y mı, ma y r), el cual 
contiene errores. La variable F se convierte en este caso en aleatoria. 


1.4 Regresión y causalidad 


A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto 
de otras variables, esto no implica causalidad necesariamente. En palabras de Kendall y Stuart: 
“Una relación estadística, por más fuerte y sugerente que sea, nunca podrá establecer una co- 
nexión causal: nuestras ideas de causalidad deben provenir de estadísticas externas y, en último 


término, de una u otra teoría”.* 


4 La palabra estocástico viene de la voz griega stokhos, que significa “centro del blanco”. El resultado de lan- 
zar dardos sobre un tablero es un proceso estocástico, es decir, un proceso lleno de tiros fallidos. 

3 M. G. Kendall y A. Stuart, The Advanced Theory of Statistics, Charles Griffin Publishers, Nueva York, 1961, 
vol. 2, cap. 26, p. 279. 
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En el ejemplo del rendimiento del cultivo citado, no hay una razón estadística para suponer 
que la lluvia no depende del rendimiento del cultivo. Considerar que el rendimiento del cultivo 
depende de la lluvia (entre otras cosas) se debe a cuestiones no estadísticas: el sentido común 
indica que la relación no puede ser a la inversa, pues no es posible controlar la lluvia mediante el 
rendimiento del cultivo. 

En todos los ejemplos de la sección 1.2, lo que se debe notar es que una relación estadística 
por sí misma no puede, por lógica, implicar causalidad. Para aducir causalidad se debe acudir 
a consideraciones a priori o teóricas. Así, en el tercer ejemplo, es posible recurrir a la teoría eco- 
nómica para afirmar que el consumo depende del ingreso real.* 


1.5 Regresión y correlación 


El análisis de correlación se relaciona de manera estrecha con el de regresión, aunque con- 
ceptualmente los dos son muy diferentes. En el análisis de correlación, el objetivo principal es 
medir la fuerza o el grado de asociación lineal entre dos variables. El coeficiente de correlación, 
que veremos en detalle en el capítulo 3, mide esta fuerza de asociación (lineal): por ejemplo, si 
se desea encontrar la correlación (coeficiente) entre el hábito de fumar y el cáncer del pulmón; 
entre las calificaciones en exámenes de estadística y en exámenes de matemáticas; entre las 
calificaciones de bachillerato y de la universidad, y así sucesivamente. En el análisis de regre- 
sión, como ya mencionamos, no interesa ese tipo de medición. En cambio, se trata de estimar o 
predecir el valor promedio de una variable con base en los valores fijos de otras. Así, quizá se 
desee predecir el promedio de las calificaciones en un examen de estadística a partir de la califi- 
cación de un estudiante en un examen de matemáticas. 

La regresión y la correlación presentan diferencias fundamentales que vale la pena mencionar. 
En el análisis de regresión hay una asimetría en el tratamiento a las variables dependientes y ex- 
plicativas. Se supone que la variable dependiente es estadística, aleatoria o estocástica, es decir, 
que tiene una distribución de probabilidad. Por otra parte, se asume que las variables explicativas 
tienen valores fijos (en muestras repetidas),” lo cual es explícito en la definición de regresión de 
la sección 1.2. Así, en la figura 1.2 se supuso que la variable de edad era fija en los niveles dados 
y se obtuvieron medidas de estatura en esos niveles. En el análisis de correlación, por otra parte, 
se tratan dos variables cualesquiera en forma simétrica; no hay distinción entre las variables de- 
pendiente y explicativa. Después de todo, la correlación entre las calificaciones de los exámenes 
de matemáticas y de estadística es la misma que la existente entre calificaciones de exámenes de 
estadística y de matemáticas. Además, las dos variables se consideran aleatorias. Como veremos, 
la mayor parte de la teoría de correlación parte del supuesto de aleatoriedad de las variables, 
mientras que la mayor parte de la teoría de regresión que expondremos en este texto está condi- 
cionada al supuesto de que la variable dependiente es estocástica y que las variables explicativas 
son fijas o no estocásticas.* 


$ Pero, como veremos en el capítulo 3, el análisis clásico de regresión se basa en el supuesto de que el mo- 
delo del análisis es el correcto. Por consiguiente, la dirección de la causalidad puede estar implícita en 

el modelo postulado. 

7 Es de crucial importancia notar que las variables explicativas pueden ser intrínsecamente estocásticas, pero, 
para fines del análisis de regresión, suponemos que sus valores son fijos en el muestreo repetido (es decir, 
que X toma los mismos valores en diversas muestras), de modo que, en efecto, no resultan aleatorias ni es- 
tocásticas. Hay más sobre este tema en la sección 3.2 del capítulo 3. 

8 En el tratamiento avanzado de econometría se puede ser más flexible con el supuesto de que las variables 
explicativas son no estocásticas (ver la introducción de la segunda parte). 
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1.6 Terminología y notación 


Antes de proceder al análisis formal de la teoría de regresión abordaremos brevemente la termi- 
nología y la notación. En las publicaciones especializadas, los términos variable dependiente y 
variable explicativa se definen de varias maneras; a continuación se presenta una lista represen- 
tativa: 


Variable dependiente 


Variable explicativa 


t 9 
Variable explicada Variable independiente 
t 9 
Predicha Predictora 
t 9 
Regresada Regresora 
t t 
Respuesta Estímulo 
t 9 
Endógena Exógena 
t 9 
Resultado Covariante 
t 9 


Variable controlada Variable de control 


Aunque es cuestión de preferencia personal y tradición, en este texto se utiliza la terminología de 
variable dependiente/variable explicativa, o la más neutral de regresada y regresora. 

Si se estudia la dependencia de una variable respecto de una única variable explicativa, como 
el consumo que depende del ingreso real, dicho estudio se conoce como análisis de regresión 
simple, o con dos variables. Sin embargo, si se estudia la dependencia de una variable respecto 
de más de una variable explicativa, como el rendimiento de un cultivo, la lluvia, la temperatura, 
el Sol y los fertilizantes, se trata de un análisis de regresión múltiple. En otras palabras, en una 
regresión de dos variables sólo hay una variable explicativa, mientras que en la regresión múltiple 
hay más de una variable explicativa. 

El término aleatorio es sinónimo de estocástico. Como ya vimos, una variable aleatoria o 
estocástica es la que toma cualquier conjunto de valores, positivos o negativos, con una proba- 
bilidad dada.” 

A menos que se indique lo contrario, la letra Y representa la variable dependiente, y las X (X1, 
X»,..., Xx), las variables explicativas, con Xx como la k-ésima variable explicativa. Los subíndices 
i o t denotan la observación o valor ¡-ésimo o t-ésimo. Xy; (o Xw) denota la ¡-ésima (o la t-ésima) 
observación de la variable Xz. N (o T) representa el número total de observaciones o valores en la 
población, y n (o £), el número total de observaciones en una muestra. Por convención, se utiliza 
el subíndice de observación i para los datos transversales (es decir, información recopilada en 
un momento determinado), y el subíndice £, para datos de series de tiempo (es decir, informa- 
ción reunida a lo largo de un periodo). La naturaleza de datos transversales y de series de tiempo, 
así como el importante tema de la naturaleza y las fuentes de datos para el análisis empírico, se 
estudian en la siguiente sección. 


? Hay una definición formal y más detalles en el apéndice A. 
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1.7 Naturaleza y fuentes de datos para el análisis económico!” 


El éxito de todo análisis econométrico depende a final de cuentas de la disponibilidad de los datos 
recopilados. Por consiguiente, es muy importante dedicar algún tiempo a estudiar la naturaleza, 
las fuentes y las limitaciones de los datos para el análisis empírico. 


Tipos de datos 


Hay tres tipos de datos disponibles para el análisis empírico: series de tiempo, series transver- 
sales e información combinada (combinación de series de tiempo y transversales). 


Datos de series de tiempo 


Los datos de la tabla 1.1 son un ejemplo de datos de series de tiempo. Una serie de tiempo es un 
conjunto de observaciones sobre los valores de una variable en diferentes momentos. Tal infor- 
mación debe recopilarse en intervalos regulares, es decir, en forma diaria (precios de acciones, 
informes del tiempo, etc.), semanal (como cifras de oferta monetaria), mensual (tasa de des- 
empleo, Índice de Precios al Consumidor [IPC], etc.), trimestral (como el PIB), anual (como 
los presupuestos del gobierno), quinquenal (como el censo de la industria manufacturera), o 
decenal (como los censos de población). Algunas veces los datos están disponibles por trimestre 
y por año, como los datos del PIB y del consumo. Con las computadoras de alta velocidad, ahora 
se recopilan datos en intervalos muy breves, por ejemplo, precios de acciones, que se obtienen 
literalmente de manera continua (o cotización en tiempo real). 

Si bien los datos de series de tiempo se utilizan mucho en estudios econométricos, presentan 
algunos problemas especiales para los econometristas. Como veremos en los capítulos sobre 
econometría de series de tiempo, la mayor parte del trabajo empírico con datos de series de 
tiempo supone que éstas son estacionarias. Aunque es muy pronto para introducir el significado 
técnico preciso de estacionariedad, en términos generales, una serie de tiempo es estacionaria si 
su media y varianza no varían sistemáticamente con el tiempo. Para entender esto, observe, en la 
figura 1.5, el comportamiento de la oferta de dinero M1 en Estados Unidos durante el periodo del 
primero de enero de 1959 a septiembre de 1999. (Los datos reales se proporcionan en el ejercicio 
1.4.) Como se observa, la oferta de dinero M1 presenta una tendencia ascendente constante, así 
como variabilidad con el transcurso de los años, lo cual indica que la serie de tiempo M1 no es 
estacionaria.!! En el capítulo 21 se analiza a fondo este tema. 


Datos transversales 


Los datos transversales consisten en datos de una o más variables recopilados en el mismo punto 
del tiempo, como el censo de población realizado por la Oficina del Censo de Estados Unidos 
cada 10 años (el último fue en 2000), las encuestas de gastos del consumidor levantadas por la 
Universidad de Michigan y, sin duda, las encuestas de opinión de Gallup y diversas empresas 
especializadas. Un ejemplo concreto de datos transversales se presenta en la tabla 1.1, con datos 
sobre la producción y precios del huevo en Estados Unidos para los 50 estados durante 1990 y 


10 En Michael D. Intriligator, Econometric Models, Techniques, and Applications, Prentice Hall, Englewood Cliffs, 
Nueva Jersey, 1978, cap. 3, hay una explicación ilustrativa. 

11 Para que resulte más claro, los datos se dividen en cuatro periodos: enero de 1951 a diciembre de 1962; 
enero de 1963 a diciembre de 1974; enero de 1975 a diciembre de 1986; y enero de 1987 a septiembre de 
1999. En estos subperiodos, los valores de la media para la oferta de dinero (con sus correspondientes 
desviaciones estándar, entre paréntesis) fueron, respectivamente: 165.88 (23.27), 323.20 (72.66), 788.12 
(195.43) y 1 099 (27.84); todas las cifras representan miles de millones de dólares. Ésta es una indicación 
aproximada de que la oferta de dinero no fue estacionaria a lo largo de todo el periodo. 


FIGURA 1.5 

Oferta de dinero M1: 
Estados Unidos, enero de 
1951-septiembre de 1999, 
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1991. Para cada año, los datos sobre los 50 estados son transversales. Así, en la tabla 1.1 aparecen 
dos muestras de corte transversal. 

Así como los datos de series de tiempo crean problemas especiales (por la estacionariedad), 
los datos transversales también tienen sus propios problemas, en concreto, el de la heteroge- 
neidad. En los datos de la tabla 1.1 se observa que hay algunos estados que producen grandes 
cantidades de huevo (como Pensilvania) y otros que producen muy poco (por ejemplo, Alaska). 
Cuando se incluyen unidades heterogéneas en un análisis estadístico, debe tenerse presente el 
efecto de tamaño o de escala con el fin de no mezclar manzanas con naranjas. Para ver esto con 
claridad, en la figura 1.6 se representan gráficamente los datos sobre la producción y los precios 
del huevo en los 50 estados de Estados Unidos en 1990. Esta figura muestra la amplia disper- 
sión de las observaciones. En el capítulo 11 veremos que el efecto de escala puede ser importante 
al evaluar las relaciones entre variables económicas. 


Datos combinados 


Los datos combinados reúnen elementos de series de tiempo y transversales. Los datos de la tabla 
1.1 son datos combinados. Hay 50 observaciones transversales por año, y dos observaciones de 
series de tiempo sobre precios y producción de huevo por estado: un total de 100 observaciones 
combinadas. De igual forma, los datos del ejercicio 1.1 son combinados, pues el índice de precios 
al consumidor de cada país de 1980 a 2005 representa datos de series de tiempo, en tanto que 
los datos del IPC de los siete países correspondientes a un solo año son transversales. Los datos 
combinados consisten en 182 observaciones: 26 observaciones anuales para cada uno de los siete 
países. 


Datos en panel, longitudinales o en micropanel 


Hay un tipo especial de datos combinados en el cual se estudia a través del tiempo la misma 
unidad transversal (por ejemplo, una familia o una empresa). Por ejemplo, el Departamento de 
Comercio de Estados Unidos realiza un censo de vivienda en intervalos periódicos. En cada 
encuesta periódica se entrevista a la misma unidad familiar (o a la gente que vive en la misma di- 
rección) para averiguar si ha habido algún cambio en las condiciones de vivienda o financieras de 
esa unidad familiar desde la última encuesta. Los datos en panel que se obtienen de las entrevistas 
periódicas de la misma unidad familiar proporcionan información muy útil sobre la dinámica del 
comportamiento de las unidades familiares, como veremos en el capítulo 16. 
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TABLA 1.1 Producción de huevo en Estados Unidos 
Estado Yı Y2 X1 X2 Estado Yı Y) X1 X2 
AL 2 206 2186 92.7 91.4 MT 172 164 68.0 66.0 
AK 0.7 0.7 151.0 149.0 NE 1 202 1 400 50.3 48.9 
AZ 73 74 61.0 56.0 NV 2.2 1.8 53.9 52.7 
AR 3 620 3 737 86.3 91.8 NH 43 49 109.0 104.0 
CA 7 472 7 444 63.4 58.4 NJ 442 491 85.0 83.0 
CO 788 873 77.8 73.0 NM 283 302 74.0 70.0 
C 1029 948 106.0 104.0 NY 975 987 68.1 64.0 
DE 168 164 117.0 113.0 NC 3 033 3 045 82.8 78.7 
FL 2 586 2 537 62.0 57.2 ND 51 45 55.2 48.0 
GA 4 302 4 301 80.6 80.8 OH 4 667 4 637 59.1 54.7 
HI 227.5 224.5 85.0 85.5 OK 869 830 101.0 100.0 
ID 187 203 79.1 72.9 OR 652 686 77.0 74.6 
IL 793 809 65.0 70.5 PA 4976 5130 61.0 52.0 
IN 5 445 5290 62.7 60.1 RI 53 50 102.0 99.0 
IA 2151 2 247 56.5 53.0 SC 1 422 1420 70.1 65.9 
KS 404 389 54.5 47.8 SD 435 602 48.0 45.8 
KY 412 483 67.7 73.5 TN 277 279 71.0 80.7 
LA 273 254 115.0 115.0 TX 3317 3356 76.7 72.6 
ME 1 069 1 070 101.0 97.0 UT 456 486 64.0 59.0 
MD 885 898 76.6 75.4 VT 31 30 106.0 102.0 
MA 235 237 105.0 102.0 VA 943 988 86.3 81.2 
MI 1 406 1396 58.0 53.8 WA 1 287 1313 74.1 71.5 
MN 2 499 2 697 57.7 54.0 WV 136 174 104.0 109.0 
MS 1 434 1 468 87.8 86.7 WI 910 873 60.1 54.0 
MO 1580 1 622 55.4 51.5 WY 1.7 1.7 83.0 83.0 


Notas: Y, = huevos producidos en 1990 (millones). 
Y, = huevos producidos en 1991 (millones). 


Xı = precio por docena (centavos de dólar) en 1990. 
X> = precio por docena (centavos de dólar) en 1991. 
Fuente: World Almanac, 1993, p. 119. Los datos provienen del Economic Research Service, U.S. Department of Agriculture. 
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Como ejemplo concreto considere los datos proporcionados en la tabla 1.2. Los datos de la 
tabla, recopilados originalmente por Y. Grunfeld, se refieren a la inversión real, al valor real de 
la empresa y al capital accionario real de cuatro empresas estadounidenses, a saber, General Elec- 
tric (GM), U.S. Steel (US), General Motors (GM) y Westinghouse (WEST), de 1935 a 1954.*? 
En virtud de que los datos corresponden a varias empresas y se recopilaron a lo largo de varios 
años, se trata de un ejemplo clásico de datos en panel. En esta tabla, el número de observaciones 
de cada empresa es el mismo, pero no siempre ocurre así. Si todas las empresas tienen el mismo 
número de observaciones, se tiene lo que se conoce como panel balanceado. Si el número de 
observaciones no es igual para cada compañía, se llama panel desbalanceado. En el capítulo 
16, Modelos de regresión con datos en panel, examinaremos estos datos y cómo estimar estos 
modelos. 

El propósito de Grunfeld cuando recopiló estos datos fue investigar cómo depende la inver- 
sión bruta real (7) del valor real de la empresa (F) un año antes y del capital accionario real (C) un 
año antes. Como las compañías de esta muestra operan en el mismo mercado de capital, Grunfeld 
las estudió en conjunto para averiguar si tenían funciones de inversión parecidas. 


Fuentes de datos!* 


Los datos para el análisis empírico pueden provenir de una dependencia gubernamental (por 
ejemplo, el Departamento de Comercio), un organismo internacional (el Fondo Monetario Inter- 
nacional [FMI] o el Banco Mundial), una organización privada (por ejemplo, Standard & Poor's) 
o un particular. Hay miles de agencias de este tipo que recopilan datos para uno u otro fin. 


Internet 


Internet revolucionó la labor de recopilación de datos. Si uno “navega” por la red en los motores 
de búsqueda con sólo una palabra o frase (por ejemplo, tipos de cambio), se verá inundado con 
todo tipo de fuentes de datos. En el apéndice E se mencionan algunos sitios Web que suminis- 
tran todo tipo de información financiera y económica, y que se visitan con mayor frecuencia. La 
mayoría de los datos se descarga con un costo mínimo. Conviene incluir en la lista de Favoritos, 
los sitios Web que brinden datos económicos útiles. 

Los datos recopilados por estas organizaciones pueden ser de naturaleza experimental o no 
experimental. En los datos experimentales, frecuentes en las ciencias naturales, el investigador 
suele recabar los datos con algunos factores constantes, con el fin de evaluar el efecto de otros 
en un fenómeno dado. Por ejemplo, al estimar el efecto de la obesidad en la presión arterial, el 
investigador recopilaría los datos y mantendría constantes los hábitos de las personas respecto de 
comer, fumar y beber para reducir la influencia de estas variables en la presión arterial. 

En las ciencias sociales, los datos por lo general son de naturaleza no experimental, es decir, 
no están sujetos al control del investigador.'* Por ejemplo, el investigador no ejerce ningún con- 
trol directo sobre los datos del PIB, desempleo, precios de acciones, etc. Como veremos, esta 
falta de control a menudo genera problemas especiales para el investigador al identificar la causa 
o causas precisas que afectan una situación particular. Por ejemplo, ¿es la oferta monetaria la que 
determina el PIB (nominal) o la relación es inversa? 


12 Y, Grunfeld, “The Determinants of Corporate Investment”, tesis doctoral inédita, Departamento de Econo- 
mía, Universidad de Chicago, 1958. Estos datos son ya una herramienta excelente para ilustrar los modelos 
de regresión con datos en panel. 

13 Para mayor claridad, ver Albert T. Somers, The U.S. Economy Demystified: What the Major Economic Statis- 
tics Mean and Their Significance for Business, D.C. Heath, Lexington, Massachusetts, 1985. 

14 También en las ciencias sociales, con mucha frecuencia, hay experimentos controlados; se da un ejemplo 
en el ejercicio 1.6. 
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TABLA 1.2 Datos de inversión de cuatro empresas, 1935-1954 


Observación I FE Cı Observación I Fa Cı 
GE US 
1935 33.1 1170.6 97.8 1935 209.9 1 362.4 53.8 
1936 45.0 2 015.8 104.4 1936 355.3 1 807.1 50.5 
1937 77.2 2 803.3 118.0 1937 469.9 2 673.3 118.1 
1938 44.6 2 039.7 156.2 1938 262.3 1 801.9 260.2 
1939 48.1 2 256.2 172.6 1939 230.4 1957.3 312.7 
1940 74.4 2 132.2 186.6 1940 361.6 2 202.9 254.2 
1941 113.0 1 834.1 220.9 1941 472.8 2 380.5 261.4 
1942 91.9 1 588.0 287.8 1942 445.6 2 168.6 298.7 
1943 61.3 1 749.4 319.9 1943 361.6 1 985.1 301.8 
1944 56.8 1 687.2 321.3 1944 288.2 1813.9 279.1 
1945 93.6 2 007.7 319.6 1945 258.7 1 850.2 213.8 
1946 159.9 2 208.3 346.0 1946 420.3 2 067.7 232.6 
1947 147.2 1 656.7 456.4 1947 420.5 1 796.7 264.8 
1948 146.3 1 604.4 543.4 1948 494.5 1 625.8 306.9 
1949 98.3 1 431.8 618.3 1949 405.1 1 667.0 351.1 
1950 93.5 1610.5 647.4 1950 418.8 1 677.4 357.8 
1951 135.2 1819.4 671.3 1951 588.2 2 289.5 341.1 
1952 157.3 2 079.7 726.1 1952 645.2 2 159.4 444.2 
1953 179.5 2 371.6 800.3 1953 641.0 2 031.3 623.6 
1954 189.6 2 759.9 888.9 1954 459.3 2115.5 669.7 
GM WEST 

1935 317.6 3 078.5 2.8 1935 12.93 191.5 1.8 
1936 391.8 4 661.7 52.6 1936 25.90 516.0 0.8 
1937 410.6 5 387.1 156.9 1937 35.05 729.0 7.4 
1938 257.7 2 792.2 209.2 1938 22.89 560.4 18.1 
1939 330.8 4 313.2 203.4 1939 18.84 519.9 23.5 
1940 461.2 4 643.9 207.2 1940 28.57 628.5 26.5 
1941 512.0 4 551.2 255.2 1941 48.51 537.1 36.2 
1942 448.0 3 244.1 303.7 1942 43.34 561.2 60.8 
1943 499.6 4 053.7 264.1 1943 37.02 617.2 84.4 
1944 547.5 4 379.3 201.6 1944 37.81 626.7 91.2 
1945 561.2 4 840.9 265.0 1945 39.27 737.2 92.4 
1946 688.1 4 900.0 402.2 1946 53.46 760.5 86.0 
1947 568.9 3 526.5 761.5 1947 55.56 581.4 111.1 
1948 529.2 3 245.7 922.4 1948 49.56 662.3 130.6 
1949 555.1 3 700.2 1 020.1 1949 32.04 583.8 141.8 
1950 642.9 3 755.6 1 099.0 1950 32.24 635.2 136.7 
1951 755.9 4 833.0 1 207.7 1951 54.38 732.8 129.7 
1952 891.2 4 924.9 1 430.5 1952 71.78 864.1 145.5 
1953 1 304.4 6 241.7 U77 1953 90.08 1193.5 174.8 
1954 1 486.7 5 593.6 2 226.3 1954 68.60 1 188.9 213.5 


Notas: Y = I = inversión bruta = adiciones a planta y equipo más mantenimiento y reparaciones, en millones de dólares deflacionados por P4. 

X = F = valor de la empresa = precio de las acciones comunes y preferentes al 31 de diciembre (o precio promedio del 31 de diciembre y 31 de enero del año 
siguiente) multiplicado por el número de acciones comunes y preferentes en circulación más el valor total de la deuda en libros al 31 de diciembre, en millones 
de dólares deflacionados por P2. 

XA3 = C = existencias de planta y equipo = suma acumulada de adiciones netas a planta y equipo deflacionadas por Pı menos provisión para depreciación deflacionada 
por P3 en estas definiciones. 

P, = factor de deflación implícito de los precios de equipo duradero de los productores (1947 = 100). 

P, = factor de deflación implícito de los precios del PIB (1947 = 100). 

P3 = factor de deflación del gasto de depreciación = promedio móvil de 10 años del índice de precios al mayoreo de metales y productos metálicos (1947 = 100). 
Fuente: Reproducido de H. D. Vinod y Aman Ullah, Recent Advances in Regression Methods, Marcel Dekker, Nueva York, 1981, pp. 259-261. 
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Precisión de los datos!” 


Si bien se dispone de numerosos datos para la investigación económica, su calidad no siempre es 
adecuada, y por múltiples razones. 


1. Como ya vimos, en su mayoría, los datos de las ciencias sociales son de naturaleza no ex- 
perimental. Por consiguiente, es posible incurrir en errores de observación, sea por acción u 
omisión. 

2. Aun en datos reunidos experimentalmente surgen errores de medición debido a las aproxima- 
ciones o al redondeo. 

3. En encuestas por cuestionarios, el problema de la falta de respuesta puede ser grave; un inves- 
tigador tiene suerte si obtiene una tasa de respuesta de 40%. El análisis basado en dicha tasa 
de respuesta parcial quizá no refleje de verdad el comportamiento del 60% que no respondió, 
y ocasione, por consiguiente, un sesgo de selectividad (muestral). Además, existe el problema 
de quienes responden el cuestionario pero no todas las preguntas, sobre todo las que son deli- 
cadas por tratar cuestiones financieras, lo que genera un sesgo adicional de selectividad. 

4. Los métodos de muestreo para obtención de datos llegan a variar tanto que a menudo es dificil 
comparar los resultados de las diversas muestras. 

5. Las cifras económicas suelen estar disponibles en niveles muy agregados. Por ejemplo, la 
mayor parte de los macrodatos (como el PIB, empleo, inflación, desempleo) están disponibles 
para la economía en su conjunto, o, en el mejor de los casos, para algunas regiones geográficas 
muy amplias. Los datos con estos niveles tan elevados de agregación tal vez no ilustren mucho 
sobre los sujetos o las microunidades objeto de estudio. 

6. Debido a su carácter confidencial, ciertos datos sólo pueden publicarse en forma muy agregada. 
En el caso de Estados Unidos, por ejemplo, la ley prohíbe al IRS (hacienda) revelar información 
sobre declaraciones de impuestos individuales; sólo puede revelar algunos datos generales. Por 
consiguiente, si se desea conocer el monto gastado en salud por los individuos con cierto nivel 
de ingresos, sólo es posible en un nivel muy agregado. Pero los macroanálisis de este tipo con 
frecuencia resultan insuficientes para revelar la dinámica del comportamiento de las microuni- 
dades. De igual forma, el Departamento de Comercio estadounidense, que levanta el censo 
de empresas cada cinco años, no tiene autorización para revelar información sobre produc- 
ción, empleo, consumo de energía, gastos de investigación y desarrollo, etc., de las empresas. 
Así, es difícil estudiar las diferencias entre las empresas en estos aspectos. 


Por estos problemas, y muchos más, el investigador debe tener siempre en mente que 
el resultado de la investigación será tan bueno como lo sea la calidad de los datos. Por 
tanto, si en algunas situaciones los investigadores concluyen que los resultados de la investi- 
gación son “insatisfactorios”, la causa puede ser la mala calidad de los datos y no un modelo 
equivocado. Por desgracia, debido a la naturaleza no experimental de los datos de la mayoría 
de los estudios de ciencias sociales, los investigadores con frecuencia no tienen más remedio 
que depender de la información disponible. Sin embargo, siempre deben tener presente que los 
datos pueden no ser los mejores y tratar de no ser muy dogmáticos sobre los resultados de un 
estudio dado, sobre todo cuando la calidad de los datos no es confiable. 


Una observación sobre las escalas de medición de las variables! 


Las variables que a menudo encontrará se clasifican en cuatro categorías generales: escala de 
razón, escala de intervalo, escala ordinal y escala nominal. Es importante comprender cada una. 


15 Para un examen crítico, ver O. Morgenstern, The Accuracy of Economic Observations, 2a. ed., Princeton 
University Press, Princeton, Nueva Jersey, 1963. 

16 El siguiente análisis se basa en gran medida en Aris Spanos, Probability Theory and Statistical Inference: Eco- 
nometric Modeling with Observational Data, Cambridge University Press, Nueva York, 1999, p. 24. 
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Escala de razón 

Para la variable X, al tomar dos valores (X1 y X2), la razón X/X> y la distancia (X2 — X1) son can- 
tidades con un significado. Asimismo, hay un ordenamiento natural (ascendente o descendente) 
de los valores a lo largo de la escala. En virtud de lo anterior, son sensatas las comparaciones 
como X, < Xı 0 X > X]. En su mayoría, las variables económicas pertenecen a esta categoría. 
Por consiguiente, no es descabellado preguntar a cuánto asciende el PIB de este año en compa- 
ración con el del año anterior. El ingreso personal, en dólares, es una variable de razón; alguien 
que gana 100 000 dólares recibe el doble que quien percibe 50 000 (antes de impuestos, desde 
luego). 


Escala de intervalo 


Una variable en escala de intervalo satisface las dos últimas propiedades de la variable en escala 
de razón, pero no la primera. Por tanto, la distancia entre dos periodos, (digamos 2000-1995), 
tiene significado, no así la razón de dos periodos (2000/1995). A las 11 de la mañana (hora de la 
costa del Pacífico de Estados Unidos) del 11 de agosto de 2007 se registró en Portland, Oregon, 
una temperatura de 60° Fahrenheit (15.5* Celsius), y en Tallahassee, Florida, de 90° F (32° C). 
La temperatura con esta escala no se mide en escala de razón pues no tiene sentido decir que en 
Tallahassee hizo 50% más calor que en Portland. Esto se debe sobre todo a que la escala Fahren- 
heit no usa 0° como base natural. 


Escala ordinal 


Una variable pertenece a esta categoría sólo si satisface la tercera propiedad de la escala de razón 
(es decir, el orden natural), como los sistemas de calificaciones por letras (A, B, C) o los niveles 
de ingresos alto, medio y bajo). Para estas variables hay un orden, pero las distancias entre las ca- 
tegorías no son cuantificables. Los estudiantes de economía recordarán las curvas de indiferencia 
entre dos bienes, en donde una curva superior de indiferencia señala un mayor nivel de utilidad, 
pero no se puede cuantificar en qué medida una curva de indiferencia es mayor que otra. 


Escala nominal 


Las variables de esta categoría no tienen ninguna característica de las variables en escala de 
razón. Las variables como el género (masculino y femenino) y el estado civil (casado, soltero, 
divorciado, separado) simplemente denotan categorías. Pregunta: ¿por qué no expresar dichas 
variables con las escalas de razón, intervalo u orden? 

Como veremos, las técnicas econométricas adecuadas para las variables en escala de razón no 
resultarían pertinentes para las variables en escala nominal. En consecuencia, es importante tener 
en mente las diferencias entre los cuatro tipos de escalas de medición recién analizadas. 


Resumen y 
conclusiones 


1. La idea fundamental del análisis de regresión es la dependencia estadística de una variable, la 
dependiente, respecto de otra o más variables, las explicativas. 

2. El objetivo de tal análisis es estimar o predecir la media o el valor promedio de la variable 
dependiente con base en los valores conocidos o fijos de las explicativas. 

3. En la práctica, un buen análisis de regresión depende de la disponibilidad de datos apropiados. 
En este capítulo analizamos la naturaleza, fuentes y limitaciones de los datos disponibles para 
la investigación, en especial en las ciencias sociales. 

4. En toda investigación se debe señalar con claridad las fuentes de los datos para el análisis, sus 
definiciones, sus métodos de recolección y cualquier laguna u omisión en ellos, así como toda 
revisión que se les haya aplicado. Tenga en cuenta que los datos macroeconómicos que publica 
el gobierno con frecuencia son objeto de revisión. 

5. Como el lector tal vez no tenga tiempo, energía o recursos para llegar a la fuente original de 
los datos, tiene el derecho de suponer que el investigador los recopiló de manera apropiada, y 
que los cálculos y análisis son correctos. 


EJERCICIOS 


TABLA 1.3 

IPC de siete países 
industrializados, 
1980-2005 
(1982-1984 = 100) 


Fuente: Economic Report of the 


President, 2007, tabla 108, p. 354. 
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1.1. La tabla 1.3 proporciona datos sobre el índice de precios al consumidor de siete países in- 
dustrializados, cuya base es 1982-1984 = 100. 


a) A partir de estos datos, calcule la tasa de inflación en cada país.!” 

b) Grafique la tasa de inflación de cada nación en función del tiempo (es decir, asigne el eje 
horizontal al tiempo, y el vertical, a la tasa de inflación). 

c) ¿Qué conclusiones generales surgen respecto de la inflación en los siete países? 

d) ¿Qué país tiene, al parecer, la tasa de inflación más variable? ¿Puede explicarlo? 

1.2. a) Use la tabla 1.3 para trazar la gráfica de la tasa de inflación de Canadá, Francia, Alema- 
nia, Italia, Japón y Gran Bretaña, en comparación con la de Estados Unidos. 

b) Comente en términos generales el comportamiento de la tasa de inflación de los seis 
países, en comparación con la de Estados Unidos. 

c) Si descubre que las tasas de inflación de esos seis países tienen la misma dirección que 
la de Estados Unidos, ¿esto indicaría que la inflación en Estados Unidos “provoca” la 
inflación en los demás países? ¿Por qué? 

Estados Gran 
Año Unidos Canadá Japón Francia Alemania Italia Bretaña 
1980 82.4 76.1 91.0 72.2 86.7 63.9 78.5 
1981 90.9 85.6 95.3 81.8 92.2 75.5 87.9 
1982 96.5 94.9 98.1 91.7 97.0 87.8 95.4 
1983 99.6 100.4 99.8 100.3 100.3 100.8 99.8 
1984 103.9 104.7 102.1 108.0 102.7 111.4 104.8 
1985 107.6 109.0 104.2 114.3 104.8 121.7 111.1 
1986 109.6 113.5 104.9 117.2 104.6 128.9 114.9 
1987 113.6 118.4 104.9 121.1 104.9 135.1 119.7 
1988 118.3 123.2 105.6 124.3 106.3 141.9 125.6 
1989 124.0 129.3 108.0 128.7 109.2 150.7 135.4 
1990 130.7 135.5 111.4 132.9 112.2 160.4 148.2 
1991 136.2 143.1 115.0 137.2 116.3 170.5 156.9 
1992 140.3 145.3 117.0 140.4 122.2 179.5 162.7 
1993 144.5 147.9 118.5 143.4 127.6 187.7 165.3 
1994 148.2 148.2 119.3 145.8 131.1 195.3 169.3 
1995 152.4 151.4 119.2 148.4 133.3 205.6 175.2 
1996 156.9 153.8 119.3 151.4 135.3 213.8 179.4 
1997 160.5 156.3 121.5 153.2 137.8 218.2 185.1 
1998 163.0 157.8 122.2 154.2 139.1 222.5 191.4 
1999 166.6 160.5 121.8 155.0 140.0 226.2 194,3 
2000 172.2 164.9 121.0 157.6 142.0 231.9 200.1 
2001 177.1 169.1 120.1 160.2 144.8 238.3 203.6 
2002 179.9 172.9 119.0 163.3 146.7 244.3 207.0 
2003 184.0 177.7 118.7 166.7 148.3 250.8 213.0 
2004 188.9 181.0 118.7 170.3 150.8 256.3 219.4 
2005 195.3 184.9 118.3 173.2 153.7 261.3 225.6 


17 Reste del IPC del año en cuestión el IPC del año anterior, divida la diferencia entre el IPC del año anterior 
y multiplique el resultado por 100. Así, la tasa de inflación de Canadá en 1981 fue de [(85.6 — 76.1)/76.1] 
x 100 = 12.48% (aproximadamente). 
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1.3. En la tabla 1.4 se presentan los tipos de cambio de nueve países industrializados corres- 
pondientes a 1985-2006. Excepto para Gran Bretaña, el tipo de cambio se define como las 
unidades de la divisa equivalentes a un dólar estadounidense; para ese país, se define como 
el número de dólares estadounidenses que se cambian por una libra inglesa. 

a) Grafique los tipos de cambio en función del tiempo y comente el comportamiento gene- 
ral de los tipos de cambio durante el periodo. 

b) Se dice que el dólar tiene una apreciación si se compran más unidades de una divisa. 
Por el contrario, se dice que sufre una depreciación si se adquieren menos divisas. En el 
periodo 1985-2006, en general, ¿qué comportamiento tuvo el dólar estadounidense? A 
propósito, busque en un texto de macroeconomía o economía internacional los factores 
que determinan la apreciación o depreciación de una moneda. 


1.4. En la tabla 1.5 aparecen los datos en los que se basa la oferta de dinero M1 de la figura 1.5. 
¿Puede explicar por qué se incrementó la oferta de dinero durante el periodo que se muestra 
en la tabla? 


1.5. Suponga que va a crear un modelo económico de actividades delictivas en el que considere 
las horas invertidas en ellas (por ejemplo, en la venta de drogas). ¿Qué variables tomaría en 
cuenta para crear dicho modelo? Vea si su modelo se asemeja al del economista ganador del 
premio Nobel, Gary Becker.!? 


TABLA 1.4 Tipos de cambio de nueve países: 1985-2006 


R. P. de Corea Gran 
Año Australia Canadá China Japón México del Sur Suecia Suiza Bretaña 
1985 0.7003 1.3659 2.9434 238.47 0.257 872.45 8.6032 2.4552 1.2974 
1986 0.6709 1.3896 3.4616 168.35 0.612 884.60 7.1273 1.7979 1.4677 
1987 0.7014 1.3259 3.7314 144.60 1.378 826.16 6.3469 1.4918 1.6398 
1988 0.7841 1.2306 3.7314 128.17 2.273 734.52 6.1370 1.4643 1.7813 
1989 0.7919 1.1842 3.7673 138.07 2.461 674.13 6.4559 1.6369 1.6382 
1990 0.7807 1.1668 4.7921 145.00 2.813 710.64 5.9231 1.3901 1.7841 
1991 0.7787 1.1460 5.3337 134.59 3.018 736.73 6.0521 1.4356 1.7674 
1992 0.7352 1.2085 5.5206 126.78 3.095 784.66 5.8258 1.4064 1.7663 
1993 0.6799 1.2902 5.7795 111.08 3.116 805.75 7.7956 1.4781 1.5016 
1994 0.7316 1.3664 8.6397 102.18 3.385 806.93 7.7161 1.3667 1.5319 
1995 0.7407 1.3725 8.3700 93.96 6.447 772.69 7.1406 1.1812 1.5785 
1996 0.7828 1.3638 8.3389 108.78 7.600 805.00 6.7082 1.2361 1.5607 
1997 0.7437 1.3849 8.3193 121.06 7.918 953.19 7.6446 1.4514 1.6376 
1998 0.6291 1.4836 8.3008 130.99 9.152 1 400.40 7.9522 1.4506 1.6573 
1999 0.6454 1.4858 8.2783 113.73 9.553 1189.84 8.2740 1.5045 1.6172 
2000 0.5815 1.4855 8.2784 107.80 9.459 1 130.90 9.1735 1.6904 1.5156 
2001 0.5169 1.5487 8.2770 121.57 9.337 1292.02 10.3425 1.6891 1.4396 
2002 0.5437 1.5704 8.2771 125.22 9.663 1 250.31 9.7233 1.5567 1.5025 
2003 0.6524 1.4008 8.2772 115.94 10.793 1 192.08 8.0787 1.3450 1.6347 
2004 0.7365 1.3017 8.2768 108.15 11.290 1 145.24 7.3480 1.2428 1.8330 
2005 0.7627 1.2115 8.1936 110.11 10.894 1 023.75 7.4710 1.2459 1.8204 
2006 0.7535 1.1340 7.9723 116.31 10.906 954.32 7.3718 1.2532 1.8434 


Fuente: Economic Report of the President, 2007, tabla B-110, p. 356. 


18 G. S. Becker, “Crime and Punishment: An Economic Approach”, Journal of Political Economy, vol. 76, 1968, 
pp. 169-217. 


TABLA 1.5 

Oferta de dinero 

M1 ajustada por 
estacionalidad: enero de 
1959-¡julio de 1999 (miles 
de millones de dólares) 


Fuente: Board of Governors, 
Federal Reserve Bank, Estados 
Unidos. 
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1959:01 
1959:07 
1960:01 
1960:07 
1961:01 
1961:07 
1962:01 
1962:07 
1963:01 
1963:07 
1964:01 
1964:07 
1965:01 
1965:07 
1966:01 
1966:07 
1967:01 
1967:07 
1968:01 
1968:07 
1969:01 
1969:07 
1970:01 
1970:07 
1971:01 
1971:07 
1972:01 
1972:07 
1973:01 
1973:07 
1974:01 
1974:07 
1975:01 
1975:07 
1976:01 
1976:07 
1977:01 
1977:07 
1978:01 
1978:07 
1979:01 
1979:07 
1980:01 
1980:07 
1981:01 
1981:07 
1982:01 
1982:07 
1983:01 
1983:07 
1984:01 
1984:07 
1985:01 
1985:07 
1986:01 


138.8900 
141.7000 
139.9800 
140.1800 
141.0600 
142.9200 
145.2400 
146.4600 
148.2600 
151.3400 
153.7400 
156.8000 
160.7100 
163.0500 
169.0800 
170.3100 
171.8600 
178.1300 
184.3300 
190.4900 
198.6900 
201.6600 
206.2200 
207.9800 
215.5400 
224.8500 
230.0900 
238.7900 
251.4700 
257.5400 
263.7600 
269.2700 
273.9000 
283.6800 
288.4200 
297.2000 
308.2600 
320.1900 
334.4000 
347.6300 
358.6000 
377.2100 
385.8500 
394.9100 
410.8300 
427.9000 
442.1300 
449.0900 
476.6800 
508.9600 
524.4000 
542.1300 
555.6600 
590.8200 
620.4000 


139.3900 
141.9000 
139.8700 
141.3100 
141.6000 
143.4900 
145.6600 
146.5700 
148.9000 
151.7800 
154.3100 
157.8200 
160.9400 
163.6800 
169.6200 
170.8100 
172.9900 
179.7100 
184.7100 
191.8400 
199.3500 
201.7300 
205.0000 
209.9300 
217.4200 
225.5800 
232.3200 
240.9300 
252.1500 
257.7600 
265.3100 
270.1200 
275.0000 
284.1500 
290.7600 
299.0500 
311.5400 
322.2700 
335.3000 
349.6600 
359.9100 
378.8200 
389.7000 
400.0600 
414.3800 
427.8500 
441.4900 
452.4900 
483.8500 
511.6000 
526.9900 
542.3900 
562.4800 
598.0600 
624.1400 


139.7400 
141.0100 
139.7500 
141.1800 
141.8700 
143.7800 
145.9600 
146.3000 
149.1700 
151.9800 
154.4800 
158.7500 
161.4700 
164.8500 
170.5100 
171.9700 
174.8100 
180.6800 
185.4700 
192.7400 
200.0200 
202.1000 
205.7500 
211.8000 
218.7700 
226.4700 
234.3000 
243.1800 
251.6700 
257.8600 
266.6800 
271.0500 
276.4200 
285.6900 
292.7000 
299.6700 
313.9400 
324.4800 
336.9600 
352.2600 
362.4500 
379.2800 
388.1300 
405.3600 
418.6900 
427.4600 
442.3700 
457.5000 
490.1800 
513.4100 
530.7800 
543.8600 
565.7400 
604.4700 
632.8100 


139.6900 
140.4700 
139.5600 
140.9200 
142.1300 
144.1400 
146.4000 
146.7100 
149.7000 
152.5500 
154.7700 
159.2400 
162.0300 
165.9700 
171.8100 
171.1600 
174.1700 
181.6400 
186.6000 
194.0200 
200.7100 
202.9000 
206.7200 
212.8800 
220.0000 
227.1600 
235.5800 
245.0200 
252.7400 
259.0400 
267.2000 
272.3500 
276.1700 
285.3900 
294.6600 
302.0400 
316.0200 
326.4000 
339.9200 
353.3500 
368.0500 
380.8700 
383.4400 
409.0600 
427.0600 
428.4500 
446.7800 
464.5700 
492.7700 
517.2100 
534.0300 
543.8700 
569.5500 
607.9100 
640.3500 


140.6800 
140.3800 
139.6100 
140.8600 
142.6600 
144.7600 
146.8400 
147.2900 
150.3900 
153.6500 
155.3300 
159.9600 
161.7000 
166.7100 
171.3300 
171.3800 
175.6800 
182.3800 
187.9900 
196.0200 
200.8100 
203.5700 
207.2200 
213.6600 
222.0200 
227.7600 
235.8900 
246.4100 
254.8900 
260.9800 
267.5600 
273.7100 
279.2000 
286.8300 
295.9300 
303.5900 
317.1900 
328.6400 
344.8600 
355.4100 
369.5900 
380.8100 
384.6000 
410.3700 
424.4300 
430.8800 
446.5300 
471.1200 
499.7800 
518.5300 
536.5900 
547.3200 
575.0700 
611.8300 
652.0100 


141.1700 
139.9500 
139.5800 
140.6900 
142.8800 
145.2000 
146.5800 
147.8200 
150.4300 
153.2900 
155.6200 
160.3000 
162.1900 
167.8500 
171.5700 
172.0300 
177.0200 
183.2600 
189.4200 
197.4100 
201.2700 
203.8800 
207.5400 
214.4100 
223.4500 
228.3200 
236.6200 
249.2500 
256.6900 
262.8800 
268.4400 
274.2000 
282.4300 
287.0700 
296.1600 
306.2500 
318.7100 
330.8700 
346.8000 
357.2800 
373.3400 
381.7700 
389.4600 
408.0600 
425.5000 
436.1700 
447.8900 
474.3000 
504.3500 
520.7900 
540.5400 
551.1900 
583.1700 
619.3600 
661.5200 


(continúa) 
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TABLA 1.5 1986:07 672.2000 680.7700 688.5100 695.2600 705.2400 724.2800 

(conaación) 1987:01 729.3400 729.8400 733.0100 743.3900 746.0000 743.7200 
1987:07 744.9600 746.9600 748.6600 756.5000 752.8300 749.6800 
1988:01 755.5500 757.0700 761.1800 767.5700 771.6800 779.1000 
1988:07 783.4000 785.0800 784.8200 783.6300 784.4600 786.2600 
1989:01 784.9200 783.4000 782.7400 778.8200 774.7900 774.2200 
1989:07 779.7100 781.1400 782.2000 787.0500 787.9500 792.5700 
1990:01 794.9300 797.6500 801.2500 806.2400 804.3600 810.3300 
1990:07 811.8000 817.8500 821.8300 820.3000 822.0600 824.5600 
1991:01 826.7300 832.4000 838.6200 842.7300 848.9600 858.3300 
1991:07 862.9500 868.6500 871.5600 878.4000 887.9500 896.7000 
1992:01 910.4900 925.1300 936.0000 943.8900 950.7800 954.7100 
1992:07 964.6000 975.7100 988.8400 1004.340 1016.040 1 024.450 
1993:01 1030.900 1033.150 1037.990 1047.470 1066.220 1075.610 
1993:07 1085.880 1095.560 1105.430 1113.800 1123.900 1129.310 
1994:01 1132.200 1136.130 1139.910 1141.420 1142.850 1145.650 
1994:07 1151.490 1151.390 1152.440 1150.410 1150.440 1149.750 
1995:01 1150.640 1146.740 1146.520 1149.480 1144.650 1144.240 
1995:07 1146.500 1146.100 1142.270 1136.430 1133.550 1126.730 
1996:01 1122.580 1117.530 1122.590 1124.520 1116.300 1115.470 
1996:07 1112.340 1102.180 1095.610 1082.560 1080.490 1081.340 
1997:01 1080.520 1076.200 1072.420 1067.450 1063.370 1065.990 
1997:07 1067.570 1072.080 1064.820 1062.060 1067.530 1074.870 
1998:01 1073.810 1076.020 1080.650 1082.090 1078.170 1 077.780 
1998:07 1075.370 1072.210 1074.650 1080.400 1088.960 1093.350 
1999:01 1091.000 1092.650 1102.010 1108.400 1104.750 1101.110 
1999:07 1099.530 1102.400 1 093.460 


1.6. Experimentos controlados en economía: El 7 de abril de 2000, el presidente Clinton con- 
virtió en ley una propuesta aprobada por ambas cámaras legislativas estadounidenses me- 
diante la cual se eliminaban las limitaciones de beneficios para los derechohabientes del 
sistema de seguridad social. Antes de esa ley, los derechohabientes de entre 65 y 69 años 
con percepciones mayores de 17 000 dólares al año perdían el equivalente a un dólar de las 
prestaciones de seguridad social por cada 3 dólares de ingresos que excedieran 17 000 dó- 
lares. ¿Cómo se planearía un estudio que evaluara el efecto de este cambio en la ley? Nota: 
En la ley derogada no había restricción de ingresos para los derechohabientes de más de 70 
años. 


1.7. Los datos de la tabla 1.6 se publicaron el primero de marzo de 1984 en el periódico The 
Wall Street Journal. Se refieren al presupuesto publicitario (en millones de dólares) de 21 
empresas en 1983 y a los millones de impactos semanales (veces que los clientes ven los 
anuncios de los productos de dichas compañías por semana). La información se basa en una 
encuesta a 4 000 adultos en la que se pidió a los usuarios de los productos que mencionaran 
un comercial que hubieran visto en la semana anterior y que tuviera que ver con la categoría 
del producto. 

a) Trace una gráfica con los impactos en el eje vertical y el gasto publicitario en el hori- 
zontal. 


b) ¿Qué se puede decir sobre la relación entre ambas variables? 


c) Al observar la gráfica, ¿cree que es redituable el gasto en publicidad? Piense en todos 
los comerciales que se transmiten el domingo que se juega el Super Bowl o durante la 
Serie Mundial del beisbol estadounidense. 


Nota: En los siguientes capítulos estudiaremos más a fondo los datos de la tabla 1.6. 
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TABLA 1.6 


Impactos, Gasto, millones de 
Efecto del gasto en Empresa millones dólares de 1983 
publicidad 
1. Miller Lite 32.1 50.1 
a a 09. 74, 
3. Stroh's 11.7 19.3 
4. Fed'l Express 21.9 22.9 
5. Burger King 60.8 82.4 
6. Coca-Cola 78.6 40.1 
7. McDonald's 92.4 185.9 
8. MCI 50.7 26.9 
9. Diet Cola 21.4 20.4 
10. Ford 40.1 166.2 
11. Levi's 40.8 27.0 
12. Bud Lite 10.4 45.6 
13. ATT/Bell 88.9 154.9 
14. Calvin Klein 12.0 5.0 
15. Wendy's 29.2 49.7 
16. Polaroid 38.0 26.9 
17. Shasta 10.0 5.7 
18. Meow Mix 12.3 7.6 
19. Oscar Meyer 23.4 9.2 
20. Crest 71.1 32.4 
21. Kibbles ‘N Bits 4.4 6.1 


Capítulo 


Análisis de regresión 
con dos variables: 
algunas ideas básicas 


En el capítulo 1 vimos el concepto de regresión en términos generales. En este capítulo lo abor- 
damos más formalmente. De manera específica, este capítulo y los tres siguientes introducirán 
al lector a la teoría básica del análisis de regresión más sencillo posible, es decir, la regresión 
bivariable o con dos variables, en la cual la variable dependiente (la regresada) se relaciona 
con una sola variable explicativa (la regresora). Consideremos primero este caso no necesa- 
riamente por su adecuación práctica, sino porque presenta las ideas fundamentales del análisis 
de regresión de la manera más sencilla posible, y algunas de estas ideas pueden ilustrarse con 
diagramas bidimensionales. Además, como veremos, el análisis de regresión múltiple, más ge- 
neral, en el que la regresada se relaciona con más de una regresora, es, en muchos sentidos, una 
extensión lógica del caso de dos variables. 


2.1 Ejemplo hipotético! 


Como se señaló en la sección 1.2, el análisis de regresión se relaciona en gran medida con la 
estimación o predicción de la media (de la población) o valor promedio de la variable depen- 
diente, con base en los valores conocidos o fijos de las variables explicativas.? Para entender esto, 
consideremos los datos de la tabla 2.1. Estos datos se refieren a la población total de 60 familias 
de una comunidad hipotética, así como a su ingreso semanal (X) y su gasto de consumo semanal 
(Y), en dólares. Las 60 familias se dividen en 10 grupos de ingresos (de 80 dólares a 260); asi- 
mismo, aparecen los gastos semanales de cada familia de los diversos grupos. Por consiguiente, 
hay 10 valores fijos de X y los correspondientes valores Y para cada valor X; así, hay 10 subpo- 
blaciones Y. 

Se observa una variación considerable en el consumo semanal de cada grupo de ingreso, lo 
cual se aprecia con claridad en la figura 2.1. No obstante, el panorama general es que, a pesar 
de la variabilidad del consumo semanal en cada nivel de ingreso considerado, en promedio, el 
consumo semanal se incrementa a medida que aumenta el ingreso. Para verificar lo anterior, en la 


1 Se recomienda al lector cuyos conocimientos de estadística estén un poco empolvados que, para refrescar- 
los, antes de leer este capítulo consulte el apéndice estadístico, apéndice A. 

2 El valor esperado, esperanza o media poblacional de una variable aleatoria Y se denota con el símbolo E(Y). 
Por otra parte, el valor medio calculado a partir de una muestra de valores tomada de una población Y se 
denota como Y, y se lee “Y barra”. 


TABLA 2.1 
Ingreso familiar 
semanal X, $ 


FIGURA 2.1 
Distribución condicional 
del gasto en varios nive- 
les de ingreso (datos de la 
tabla 2.1). 
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X> 
Y 80 100 120 140 160 180 200 220 240 260 
1 

Consumo familiar 55 65 79 80 102 110 120 135 137 150 
semanal Y, $ 60 70 84 93 107 115 136 137 145 152 
65 74 90 95 110 120 140 140 155 175 
70 80 94 103 116 130 144 152 165 178 
75 85 98 108 118 135 145 157 175 180 
= 88 = 113 125 140 = 160 189 185 
= = = 115 = = = 162 - 191 
Total 325 462 445 707 678 750 685 1043 966 1211 
Media condicional 65 77 89 101 113 125 137 149 161 173 

de Y, E(Y|X) 


tabla 2.1 se proporciona la media, o promedio, del consumo semanal que corresponde a cada uno 
de los 10 niveles de ingresos. Así, al nivel de ingreso de 80 dólares le corresponde una media de 
consumo igual a 65 dólares, pero para el nivel de 200, la media es de 137. En total hay 10 valores 
medios para las 10 subpoblaciones de Y. A estos valores medios se les llama valores esperados 
condicionales, en virtud de que dependen de los valores de la variable (condicional) X. En forma 
simbólica, se denotan con £(Y | X), lo cual se lee como el valor esperado de Y, dado el valor de 
X (ver también la tabla 2.2). 

Es importante distinguir entre los valores esperados condicionales y el valor esperado in- 
condicional del consumo semanal, E(Y). Si sumamos los consumos semanales de las 60 familias 
que forman la población y dividimos este número entre 60, obtendremos la cantidad de 121.20 
dólares ($7 272/60), que es el valor de la media incondicional, o esperada, del consumo sema- 
nal, £(Y ); es incondicional porque, para obtener esta cifra, obviamos los niveles de ingreso de 
las diversas familias. Como es lógico, los diferentes valores esperados condicionales de Y de la 


200 - 
eo E(YIX) 


100 > 


Consumo semanal, $ 


50 pl l li l I l l | | | 
80 100 120 140 160 180 200 220 240 260 


Ingreso semanal, $ 


3 Como se muestra en el apéndice A, los valores de las medias condicionales e incondicionales suelen 
diferir. 
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TABLA 2.2 
Probabilidades 
condicionales p(Y | X;) 
para los datos de la 
tabla 2.1 


X> 
p(YI Xì) 80 100 120 140 160 180 200 220 240 260 
y 
Probabilidades t 1 1 t 1 1 í 1 í 1 
condicionales 1 i 1 1 1 1 1 1 1 1 
3 a 6 5 fè 6 6 S T 6 Ti 
po! Xx) 1 1 1 1 1 1 1 1 1 1 
5 6 5 7 6 6 5 7 6 7 
1 1 1 1 1 1 1 1 1 1] 
5 6 5 7 6 6 5 7 6 7 
1 1 1 1 1 1 1 1 1 1 
5 6 5 7 6 6 5 7 6 7 
1 1 1 1 1 1 1 
a 6 E 7 6 6 E 7 6 T 
1 4 4 
E F g 7 F z J 7 B 7 
Medias 65177 89 IOL 18 125 137 149 161 173 
condicionales de Y 


tabla 2.1 varían respecto del valor esperado incondicional de Y, igual a 121.20 dólares. Cuando 
se plantea la pregunta “¿cuál es el valor esperado del consumo semanal de una familia?”, la res- 
puesta es 121.20 dólares (la media incondicional). Pero si se pregunta “¿cuál es el valor esperado 
del consumo semanal de una familia cuyo ingreso mensual es de 140 dólares?”, la respuesta es 
101 (la media condicional). En otras palabras, a la pregunta “¿cuál es la mejor predicción (media) 
del gasto semanal de las familias con un ingreso semanal de 140 dólares?”, la respuesta es 101 
dólares. Por consiguiente, conocer el nivel de ingreso permite predecir mejor el valor medio del 
consumo que si se ignora esa información.* Tal vez sea ésta la esencia del análisis de regresión, 
como lo descubriremos a lo largo de este libro. 

Los puntos oscuros dentro de círculos de la figura 2.1 muestran los valores medios condicio- 
nales de Y, graficados en función de los diferentes valores de X. Al unir esos valores obtenemos 
la línea de regresión poblacional (LRP), o, más general, la curva de regresión poblacional 
(CRP).* Con palabras más sencillas, es la regresión de Y sobre X. El adjetivo “poblacional” se 
debe a que en este ejemplo trabajamos con la población total de 60 familias. Por supuesto, en 
realidad una población tendría más familias. 

Asi, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el 
lugar geométrico de las medias condicionales de la variable dependiente para los valores fijos 
de la(s) variable(s) explicativa(s). En palabras más simples, es la curva que conecta las medias 
de las subpoblaciones de Y que corresponden a los valores dados de la regresora X. Lo anterior se 
ve de manera gráfica en la figura 2.2. 

Esta figura muestra que para cada X (es decir, el nivel de ingresos) existe una población 
de valores Y (consumo semanal) que se distribuyen alrededor de la media (condicional) de di- 
chos valores Y. Por simplicidad, suponemos que tales valores Y están distribuidos simétricamente 
alrededor de sus respectivos valores medios (condicionales). Asimismo, la recta (o curva) de 
regresión pasa a través de los mencionados valores medios (condicionales). 

Con estos antecedentes, es útil para el lector leer de nuevo la definición de regresión de la 
sección 1.2. 


4 Estoy en deuda con James Davidson por esta perspectiva. Ver James Davidson, Econometric Theory, 
Blackwell, Oxford, Gran Bretaña, 2000, p. 11. 


5 En el presente ejemplo, la LRP es una recta, pero podría ser una curva (ver la figura 2.3). 


FIGURA 2.2 

Línea de regresión po- 
blacional (datos de la 
tabla 2.1). 
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(9) Media condicional 


EY IX) 


149 


Distribución de 
Y dada X = $220 


101 


Consumo semanal, $ 


65 


vè 


Ka X 
80 140 220 


Ingreso semanal, $ 


2.2 Concepto de función de regresión poblacional (FRP) 


De la anterior exposición, y en especial de las figuras 2.1 y 2.2, es claro que cada media condicio- 
nal E(Y | X;) es función de X;, donde X; es un valor dado de X. Simbólicamente, 


E(Y |X;) = M(X;) (2.2.1) 


donde f(X;) denota alguna función de la variable explicativa X. En el ejemplo, £(Y | X;) es una 
función lineal de X;. La ecuación (2.2.1) se conoce como función de esperanza condicional 
(FEC), función de regresión poblacional (FRP) o regresión poblacional (RP), para abreviar. 
Dicha función sólo denota que el valor esperado de la distribución de Y dada X; se relaciona 
funcionalmente con X;. En otras palabras, dice cómo la media o respuesta promedio de Y varía 
con X. 

¿Qué forma adopta la función f(X;)? Esta pregunta es importante porque en una situación real 
no disponemos de toda la población para efectuar el análisis. La forma funcional de la FRP es por 
consiguiente una pregunta empírica, aunque en casos específicos la teoría tiene algo que decir. 
Por ejemplo, un economista puede plantear que el consumo manifiesta una relación lineal con el 
ingreso. Por tanto, como primera aproximación o hipótesis de trabajo, podemos suponer que la 
FRP E(Y | X;) es una función lineal de X;, del tipo 


E(Y | X:) = Pi + BoA; (2.2.2) 


donde $6 y 2 son parámetros no conocidos pero fijos que se denominan coeficientes de regre- 
sión; $1 y 2 se conocen también como coeficientes de intersección y de pendiente, respecti- 
vamente. La ecuación (2.2.1) se conoce como función de regresión poblacional lineal. En la 
bibliografía aparecen otras expresiones, como modelo de regresión poblacional lineal o sólo 
regresión poblacional lineal. En lo sucesivo, consideraremos sinónimos los términos regresión, 
ecuación de regresión y modelo de regresión. 
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En el análisis de regresión, la idea es estimar las FRP como la ecuación (2.2.2); es decir, es- 
timar los valores no conocidos de £1 y f2 con base en las observaciones de Y y X. Veremos este 
tema con más detalle en el capítulo 3. 


2.3 Significado del término lineal 


Como este texto se relaciona sobre todo con modelos lineales, como la ecuación (2.2.2), es esen- 
cial entender a cabalidad el término lineal, pues se interpreta de dos formas. 


Linealidad en las variables 


El primer significado, y tal vez el más “natural”, de linealidad es aquel en que la esperanza 
condicional de Y es una función lineal de X;, como en la ecuación ¡ERE Geométricamente, 
la curva de regresión en este caso es una recta. En esta interpretación, una función de regresión 
como E(Y | X,) = bı + B2X e no es una función lineal porque la variable X aparece elevada a una 
potencia o índice de 2. 


Linealidad en los parámetros 


La segunda interpretación de linealidad se presenta cuando la esperanza condicional de Y, 
E(Y | X;), es una función lineal de los parámetros, los $; puede ser o no lineal en la variable X.” De 
acuerdo con esta interpretación, E(Y | X;) = bı + P2X 3 es un modelo de regresión lineal (en el 
parámetro). Para ver lo anterior, supongamos que X tiene un valor de 3. Por tanto, E(Y | X= 3) = 
B1 + 96», ecuación a todas luces lineal en 6; y 2. En consecuencia, todos los modelos de la 
figura 2.3 son de regresión lineal; es decir, son modelos lineales en los parámetros. 

Ahora consideremos el modelo £(Y | X¡) = f¡ + BX, i. Supongamos también que X= 3; así 
obtenemos E(Y | X;) = B1 + 382, que es no lineal respecto del parámetro 62. El anterior es un 
ejemplo de modelo de regresión no lineal (en el parámetro). Analizaremos dichos modelos en 
el capítulo 14. 

De las dos interpretaciones de linealidad, la linealidad en los parámetros es pertinente para el 
desarrollo de la teoría de regresión que presentaremos en breve. Por consiguiente, en adelante, el 
término regresión “lineal” siempre significará una regresión lineal en los parámetros; los ß (es 
decir, los parámetros) se elevan sólo a la primera potencia. Puede o no ser lineal en las variables 
explicativas X. Esquemáticamente tenemos la tabla 2.3. Así, E(Y | X;) = 61 + f2A;, lineal en los 
parámetros igual que en las variables, es un modelo de regresión lineal (MRL), lo mismo que 
E(Y | Xi) = bı + PX a lineal en los parámetros pero no lineal en la variable X. 


é Se dice que una función Y = f(X) es lineal en X si X aparece elevado a una potencia o índice de 1 sola- 
mente (es decir, se excluyen términos como X?, /X y demás), y dicha variable no está multiplicada ni divi- 
dida por alguna otra variable (por ejemplo, X - Zo X/Z, donde Z es otra variable). Si Y sólo depende de X, 
otra forma de plantear que Y se relaciona linealmente con X es que la tasa de cambio de Y respecto de X (es 
decir, la pendiente, o la derivada, de Y respecto de X, dY/dX) es independiente del valor de X. Así, si Y = 4X, 
dY/dX = 4, valor independiente del valor de X. Pero si Y = 4X?, dY/dX = 8X, término que no es indepen- 
diente del valor tomado por X. Por consiguiente, la función no es lineal en X. 

7 Se dice que una función es lineal en el parámetro, digamos £1, si $1 aparece elevado a una potencia de 1 
solamente y no está multiplicado ni dividido por ningún otro parámetro (por ejemplo, 8182, B2/P1, etcé- 
tera). 


FIGURA 2.3 


Funciones lineales en los 


parámetros. 


TABLA 2.3 
Modelos de regresión 
lineal 
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Y Y 
Cuadrática Exponencial 
Y = b4 + P2X + B3 X Y = eb+B,X 

X X 

Y 

Cúbica 
Y =P,+P,X + px F pa X 

X 


¿Modelo lineal en los parámetros? ¿Modelo lineal en las variables? 


Sí No 
Sí MRL MRL 
No MRNL MRNL 


Nota: MRL = modelo de regresión lineal 
MRNL = modelo de regresión no lineal 


2.4 Especificación estocástica de la FRP 


En la figura 2.1 es claro que, a medida que aumenta el ingreso familiar, el consumo familiar, en 
promedio, también aumenta. Pero, ¿qué sucede con el consumo de una familia en relación con su 
nivel de ingreso (fijo)? Es obvio, por la tabla 2.1 y la figura 2.1, que el consumo de una familia en 
particular no necesariamente aumenta a medida que lo hace el nivel de ingreso. Por ejemplo, 
en la tabla 2.1 se observa que en el nivel de ingreso de 100 dólares existe una familia cuyo 
consumo, de 65, es menor que el consumo de dos familias cuyo ingreso semanal es sólo de 80 
dólares. Sin embargo, hay que advertir que el consumo promedio de las familias con ingreso 
semanal de 100 es mayor que el consumo promedio de las familias con un ingreso semanal de 
80 dólares (77 y 65). 

Entonces, ¿qué se puede decir sobre la relación entre el consumo de una familia y un nivel 
determinado de ingresos? En la figura 2.1 se ve que, con el nivel de ingresos de X;, el consumo 
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de una familia en particular se agrupa alrededor del consumo promedio de todas las familias en 
ese nivel de X;, es decir, alrededor de su esperanza condicional. Por consiguiente, expresamos la 
desviación de un Y; en particular alrededor de su valor esperado de la manera siguiente: 


ui = Y, — EUY |X;) 


Y, = E(Y |X) + u; (2.4.1) 


donde la desviación u; es una variable aleatoria no observable que adopta valores positivos o 
negativos. Técnicamente, u; se conoce como perturbación estocástica o término de error es- 
tocástico. 

¿Cómo se interpreta la ecuación (2.4.1)? Se puede decir que el gasto de una familia en par- 
ticular, según su nivel de ingreso, se expresa como la suma de dos componentes: 1) (Y | X;), que 
es simplemente la media del consumo de todas las familias con el mismo nivel de ingreso. Este 
componente se conoce como componente sistemático, o determinista, y 2) u; que es el compo- 
nente aleatorio, o no sistemático. Examinaremos en breve la naturaleza del término de perturba- 
ción estocástica, pero por el momento supondremos que es un término que sustituye O representa 
a todas las variables omitidas o ignoradas que puedan afectar a Y pero que no se incluyen (o no 
pueden incluirse) en el modelo de regresión. 

Si suponemos que E(Y | X;) es lineal en X;, como en (2.2.2), la ecuación (2.4.1) se escribe 
como 


Y, =E |X) +i 
= fı + Xi + ui (2.4.2) 


La ecuación (2.4.2) plantea que el consumo de una familia se relaciona linealmente con su in- 
greso más el término de perturbación. Así, el consumo individual, con X = 80 (ver la tabla 2.1), 
se expresa como 


Yı = 55 = fı + B2(80) + uy 
Y, = 60 = pı + B2(80) + u2 
Y; = 65 = B, + 8480) + u3 (2.4.3) 
Ya = 70 = pı + B2(80) + u4 
Ys = 75 = Bi + P2(80) + us 


Ahora, si tomamos el valor esperado de (2.4.1) en ambos lados, obtenemos 
EQ; | Xi) = E[E(Y | X;)] + E(u; | X;) 
= E(Y | X;) + E(u; | X;) (2.4.4) 


donde se aprovecha que el valor esperado de una constante sea la constante misma. Observe 
con atención que en la ecuación (2.4.4) se tomó la esperanza condicional, condicionada a las X 
dadas. 

Como K(Y; | X) es lo mismo que £(Y | X;), la ecuación (2.4.4) implica que 


E(u¡|X;¡)=0 (2.4.5) 


8 Ver en el apéndice A un breve análisis de las propiedades del operador de esperanza E. Observe que 
E(Y | Xì, una vez fijo el valor de X;, es una constante. 
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Así, el supuesto de que la línea de regresión pasa a través de las medias condicionales de Y (ver 
la figura 2.2) implica que los valores de la media condicional de u; (condicionados al valor dado 
de X) son cero. 

De la exposición anterior es claro que (2.2.2) y (2.4.2) son formas equivalentes si E(u; | X;) = 
0.? Pero la especificación estocástica (2.4.2) tiene la ventaja que muestra claramente otras varia- 
bles, además del ingreso, que afectan el consumo, y que el consumo de una familia no se explica 
en su totalidad sólo por la(s) variable(s) en el modelo de regresión. 


2.5 Importancia del término de perturbación estocástica 


Como anotamos en la sección 2.4, el término de perturbación u; es un sustituto de todas las varia- 
bles que se omiten en el modelo, pero que, en conjunto, afectan a Y. La pregunta obvia es: ¿por 
qué no se introducen explícitamente estas variables en el modelo? O de otra forma, ¿por qué no 
se crea un modelo de regresión múltiple con tantas variables como sea posible? Las razones son 
muchas. 


1. Vaguedad de la teoría: De existir una teoría que determine el comportamiento de Y, podría 
estar incompleta, y con frecuencia lo está. Se tendría quizá la certeza de que el ingreso semanal X 
afecta el consumo semanal Y, pero también ignoraríamos, o no tendríamos la seguridad, sobre las 
demás variables que afectan a Y. Por consiguiente, u; sirve como sustituto de todas las variables 
excluidas u omitidas del modelo. 


2. Falta de disponibilidad de datos: Aunque se conozcan algunas variables excluidas y se 
considerara por tanto una regresión múltiple en lugar de una simple, tal vez no se cuente con in- 
formación cuantitativa sobre esas variables. Es común en el análisis empírico que no se disponga 
de los datos que idealmente se desearía tener. Por ejemplo, en principio se puede introducir la ri- 
queza familiar como variable explicativa adicional a la variable ingreso para explicar el consumo 
familiar. Pero, por desgracia, la información sobre riqueza familiar por lo general no está dispo- 
nible. Así, no habría mas que omitir la variable riqueza del modelo a pesar de su gran relevancia 
teórica para explicar el consumo. 


3. Variables centrales y variables periféricas: Suponga en el ejemplo consumo-ingreso que 
además del ingreso X, hay otras variables que afectan también el consumo, como el número de 
hijos por familia X2, el sexo A3, la religión X4, la educación X; y la región geográfica X6. Pero es 
muy posible que la influencia conjunta de todas o algunas de estas variables sea muy pequeña, o 
a lo mejor no sistemática ni aleatoria, y que desde el punto de vista práctico y por consideracio- 
nes de costo no se justifique su introducción explícita en el modelo. Cabría esperar que su efecto 
combinado pueda tratarse como una variable aleatoria u;.!? 


4. Aleatoriedad intrínseca en el comportamiento humano: Aunque se logre introducir en el 
modelo todas las variables pertinentes, es posible que se presente alguna aleatoriedad “intrín- 
seca” en Y que no se explique, a pesar de todos los esfuerzos que se inviertan. Las perturbaciones, 
u, pueden reflejar muy bien esta aleatoriedad intrínseca. 


5. Variables representantes (proxy) inadecuadas: A pesar de que el modelo clásico de regre- 
sión (que veremos en el capítulo 3) supone que las variables Y y X se miden con precisión, en la 
práctica, los datos pueden estar plagados de errores de medición. Consideremos, por ejemplo, 


? En efecto, en el método de mínimos cuadrados que veremos en el capítulo 3 se supone explícitamente que 
E(u; | X) = O. Ver la sección 3.2. 
10 Otra dificultad es que no es fácil cuantificar variables como sexo, educación y religión. 
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la famosa teoría de la función de consumo postulada por Milton Friedman.!! Él considera el 
consumo permanente (Y?) como función del ingreso permanente (XP). Pero como la información 
sobre estas variables no es observable directamente, en la práctica se utilizan variables repre- 
sentantes (proxy), como el consumo actual (Y ) y el ingreso actual (X), que sí son observables. 
Como las Y y las X observadas pueden no ser iguales a Y” y X”, existe el problema de errores 
de medición. El término de perturbación u en este caso puede representar también los errores de 
medición. Como veremos en un capítulo posterior, de existir tales errores de medición, pueden 
tener graves repercusiones en la estimación de los coeficientes de regresión, £. 


6. Principio de parsimonia: De acuerdo con el principio de la navaja de Occam,'? conviene 


mantener el modelo de regresión lo más sencillo posible. Si se explica “sustancialmente” el com- 
portamiento de Y con dos o tres variables explicativas, y si la teoría no es bastante fuerte para in- 
dicar otras variables que pueden incluirse, ¿para qué introducir más variables? Que u; represente 
todas las demás variables. Por supuesto, no se deben excluir variables pertinentes e importantes 
sólo para que el modelo de regresión no se complique. 


7. Forma funcional incorrecta: Aunque se cuente con variables teóricamente correctas para 
explicar un fenómeno y se obtengan datos sobre ellas, con frecuencia no se conoce la forma de 
la relación funcional entre la variable regresada y las regresoras. ¿Es el consumo una función 
lineal (invariable) del ingreso, o es una función no lineal (invariable)? Si se trata de lo primero, 
Y, = Bi + B2A1 + u; es la relación funcional adecuada entre Y y X, pero en el segundo caso, Y; = 
Bı + B2X; + B3X a + u; puede ser la forma funcional correcta. En los modelos con dos varia- 
bles, la forma funcional de la relación a menudo se puede inferir del diagrama de dispersión. Sin 
embargo, en un modelo de regresión múltiple no es fácil determinar la forma funcional apropiada, 
pues los diagramas de dispersión no se visualizan gráficamente en múltiples dimensiones. 


Por todas estas razones, las perturbaciones estocásticas u; asumen un papel muy valioso en el 
análisis de regresión, que apreciaremos a medida que avancemos. 


2.6 Función de regresión muestral (FRM) 


Hasta el momento, nos hemos limitado a la población de valores Y que corresponden a valores 
fijos de X. Con toda deliberación evitamos consideraciones muestrales (observe que los datos de 
la tabla 2.1 representan la población, no una muestra). No obstante, es momento de enfrentar los 
problemas muestrales, porque en la práctica lo que se tiene al alcance no es más que una muestra 
de valores de Y que corresponden a algunos valores fijos de X. Por tanto, la labor ahora es estimar 
la FRP con base en información muestral. 

A manera de ilustración, supongamos que no se conocía la población de la tabla 2.1 y que la 
única información que se tenía era una muestra de valores de Y seleccionada al azar para valores 
dados de X como se presentan en la tabla 2.4. A diferencia de la tabla 2.1, ahora se tiene sólo un 
valor de Y correspondiente a los valores dados de X; cada Y (dada X;) en la tabla 2.4 se selecciona 
aleatoriamente de las Y similares que corresponden a la misma X de la población de la tabla 
2.1. 


11 Milton Friedman, A Theory of the Consumption Function, Princeton University Press, Princeton, Nueva Jer- 
sey, 1957. 

12 “That descriptions be kept as simple as possible until proved inadequate”, The World of Mathematics, vol. 2, 
J.R. Newman (ed), Simon & Schuster, Nueva York, 1956, p. 1247, o “Entities should not be multiplied 
beyond necessity”, Donald F. Morrison, Applied Linear Statistical Methods, Prentice Hall, Englewood Cliffs, 
Nueva Jersey, 1983, p. 58. 


FIGURA 2.4 

Líneas de regresión ba- 
sadas en dos muestras 
diferentes. 
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La cuestión es la siguiente: con base en la muestra de la tabla 2.4, ¿es posible predecir el 
consumo semanal promedio Y de la población en su conjunto correspondiente a los valores de Y 
seleccionados? En otras palabras, ¿se puede estimar la FRP a partir de los datos de la muestra? 
Como el lector con seguridad sospecha, quizá no pueda calcularse la FRP con “precisión” debido 
a las fluctuaciones muestrales. Para ver esto, supongamos que se toma otra muestra aleatoria de 
la población de la tabla 2.1, la cual se presenta en la tabla 2.5. 

Al graficar los datos de las tablas 2.4 y 2.5 se obtiene el diagrama de dispersión de la figura 
2.4. En el diagrama de dispersión se trazaron dos líneas de regresión muestral con el fin de 
“ajustar” razonablemente bien las dispersiones: FRM; se basa en la primera muestra y FRM, en 
la segunda. ¿Cuál de las dos líneas de regresión representa a la línea de regresión poblacional 
“verdadera”? Si evitamos la tentación de mirar la figura 2.1, que a propósito representa la RP, 
no hay forma de estar por completo seguro de que alguna de las líneas de regresión de la figura 
2.4 representa la verdadera recta (o curva) de regresión poblacional. Las líneas de regresión en 


TABLA 2.4 TABLA 2.5 
Muestra aleatoria de la Otra muestra aleatoria de la 
población de la tabla 2.1 población de la tabla 2.1 
Y X Y X 
70 80 55 80 
65 100 88 100 
90 120 90 120 
95 140 80 140 
110 160 118 160 
115 180 120 180 
120 200 145 200 
140 220 135 220 
155 240 145 240 
150 260 175 260 
200 ~ 
E FRM, 
x Primera muestra (tabla 2.4) Regresión basada en Pe 
e Segunda muestra (tabla 2.5) la segunda muestra - FRM; 
150 F 
e 
Á Regresión basada en 
E la primera muestra 
a 100 F 
g 
z 
8 
Q Pa x 
50 F e 


yl l ] ] | | | | l | 
80 100 120 140 160 180 200 220 240 260 


Ingreso semanal, $ 
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la figura 2.4 se conocen como líneas de regresión muestral. Se supone que representan la línea 
de regresión poblacional, pero, debido a fluctuaciones muestrales, son, en el mejor de los casos, 
sólo una aproximación de la verdadera RP. En general, se obtendrían N FRM diferentes para N 
muestras diferentes, y estas FRM no por fuerza son iguales. 

Ahora, igual que la FRP en la cual se basa la línea de regresión poblacional, se desarrolla el 
concepto de función de regresión muestral (FRM) para representar la línea de regresión mues- 
tral. La contraparte muestral de la ecuación (2.2.2) puede escribirse como 


Y, = BL + ÊX; (2.6.1) 


donde Y se lee “Y sombrero” o “Y gorra” 
Y, = estimador de E(Y | Xi) 
Êi = estimador de 6; 
Ba = estimador de $2 


Advierta que un estimador, conocido también como estadístico (muestral), no es más que 
una regla, fórmula o método para estimar el parámetro poblacional a partir de la información 
suministrada por la muestra disponible. Un valor numérico particular obtenido por el estimador 
en un análisis se conoce como estimación.!* Cabe señalar que un estimador es aleatorio, pero 
una estimación no. (¿Por qué?) 

Ahora, tal como la FRP se expresa en dos formas equivalentes, (2.2.2) y (2.4.2), la FRM 
(2.6.1) se expresa en su forma estocástica de la siguiente manera: 


Y, = Êi + ÊX; +û; (2.6.2) 


donde, además de los símbolos ya definidos, ú; denota el término residual (muestral). Concep- 
tualmente, ù; es análogo a u; y se considera una estimación de u;, que se introduce en la FRM por 
las mismas razones que se introdujo u; en la FRP. 

Así, para resumir, concluimos que el objetivo principal del análisis de regresión es estimar la 
FRP 


Y; = bi + 2X: + ui (2.4.2) 
con base en la FRM 
Y; = Êi + Êx: + û; (2.6.2) 


porque son más frecuentes los casos en que el análisis se basa en una sola muestra tomada de 
una población. Pero, debido a fluctuaciones muestrales, la estimación de la FRP basada en la 
FRM es, en el mejor de los casos, una aproximación. En la figura 2.5 se presenta gráficamente 
esta aproximación. 


13 Como mencionamos en la Introducción, un sombrero sobre una variable significa un estimador del valor 
poblacional pertinente. 
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Para X= Xi se tiene una observación (muestral), Y = Y;. En términos de la FRM, la Y; obser- 
vada se expresa como 


Yy =f +â (2.6.3) 


y en términos de la FRP, como 
Y; = E(Y|X;)=u; (2.6.4) 


Ahora, como es evidente, en la figura 2.5, Y, sobrestima la verdadera E(Y | X;) para la X; que ahí 
se muestra. De la misma manera, para cualquier X;, a la izquierda del punto 4, la FRM subesti- 
mará la verdadera FRP. Pero el lector puede concluir fácilmente que tal sobrestimación y subes- 
timación es inevitable debido a las fluctuaciones muestrales. 

La pregunta crítica es ahora: como la FRM es apenas una aproximación de la FRP, ¿se puede 
diseñar una regla o método que “acerque” esta aproximación lo más posible? En otras palabras, 
¿cómo se debe construir la FRM para que $ y f2 estén tan “cerca” de los verdaderos 61 y f2 
como sea posible, aunque nunca se lleguen a conocer los verdaderos 61 y 2? 

La respuesta ocupará gran parte del capítulo 3. Se advierte aquí que es posible formular pro- 
cedimientos para que la FRM refleje la FRP tan fielmente como sea posible. Es fascinante consi- 
derar esto aunque en realidad nunca se llegue a determinar la propia FRP. 


2.7 Ejemplos ilustrativos 


Este capítulo concluye con dos ejemplos. 
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EJEMPLO 2.1 
Salario promedio 
por hora según la 
escolaridad 


TABLA 2.6 
Salario promedio 
por hora según la 
escolaridad 


Fuente: Arthur S. Goldberger, 
Introductory Econometrics, 
Harvard University Press, 
Cambridge, Massachusetts, 


1998, tabla 1.1, p. 5 (adaptada). 


FIGURA 2.6 
Relación entre salario 
promedio y escolaridad. 


La tabla 2.6 proporciona datos sobre el nivel de estudios (medido en años de escolaridad), el 
salario promedio por hora devengado por las personas por nivel de escolaridad y el número de 
personas en un nivel de estudios. Ernst Berndt obtuvo originalmente los datos de la tabla de la 
encuesta de población de mayo de 1985.14 

Al trazar el salario promedio (condicional) en función del grado de escolaridad, se obtiene la 
gráfica de la figura 2.6. La curva de regresión de la gráfica muestra la variación de los salarios 
promedio de acuerdo con el grado de escolaridad; por lo general, aquéllos se incrementan a la 
par que el grado de escolaridad, conclusión que no debe causar sorpresa. En un capítulo poste- 
rior examinaremos la influencia de otras variables en el salario promedio. 


Años de Salario Número de 
escolaridad promedio, $ personas 

6 4.4567 3 

7 5.7700 5 

8 5.9787 15 

9) 73B 12 

10 7.3182 17 

11 6.5844 27 
12 7.8182 218 
15 7.8351 37 
14 11.0223 56 
15 10.6738 13 
16 10.8361 70 
17 13.6150 24 
18 13.5310 31 
Total 528 

14 - 


e Valor promedio 


10 


Salario promedio 


6 8 10 12 14 16 18 
Escolaridad 


14 Ernst R. Berndt, The Practice of Econometrics: Classic and Contemporary, Addison Wesley, Reading, Mas- 
sachusetts, 1991. Por cierto, es un excelente libro que el lector tal vez quiera leer para averiguar cómo inves- 
tigan los econometristas. 
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EJEMPLO 2.2 
Calificaciones de 
matemáticas en el 
examen SAT según 
ingreso familiar 


FIGURA 2.7 
Relación entre la cali- 
ficación promedio de 
matemáticas en el exa- 
men SAT y el ingreso 
familiar promedio. 


En la tabla 2.10 del ejercicio 2.17 hay datos sobre el promedio de calificaciones del examen de 
aptitud académica (SAT, Scholastic Aptitude Test) de lectura crítica, matemáticas y redacción 
de 947 347 estudiantes que solicitaron su admisión a licenciatura en 2007. Se representó gráfi- 
camente la calificación promedio de matemáticas en función del ingreso familiar promedio para 
obtener la ilustración de la figura 2.7. 

Nota: En virtud de los intervalos abiertos de ingreso para la primera y última categorías de la 
tabla 2.10, se supone que el ingreso promedio familiar más bajo es de 5 000 dólares, y el más 
alto, de 150 000 dólares. 
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Como muestra la figura 2.7, la calificación promedio de matemáticas aumenta conforme lo 
hace el ingreso familiar. Como el número de estudiantes que presentaron el examen SAT es muy 
grande, es probable que represente a toda la población de estudiantes que presentaron el exa- 
men. Por tanto, también es probable que la línea de regresión trazada en la figura 2.7 represente 
la línea de regresión poblacional. 

Puede haber varias razones para la relación positiva entre ambas variables. Por ejemplo, se 
puede argumentar que los estudiantes con un mayor ingreso familiar están en mejores condicio- 
nes de costear clases privadas para el examen. Además, es más probable que los estudiantes de 
mayores ingresos tengan padres con educación superior. También es posible que los estudiantes 
con calificaciones más altas de matemáticas procedan de mejores escuelas. A usted se le pueden 
ocurrir otras explicaciones de la relación positiva entre las dos variables. 
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Resumen y 1. El concepto fundamental del análisis de regresión es el de función de esperanza condicional 
(FEC), o función de regresión poblacional (FRP). El objetivo del análisis de regresión es 
averiguar la forma en que varía el valor promedio de la variable dependiente (o regresada) de 
acuerdo con el valor dado de la variable explicativa (o regresora). 

2. Este libro trata sobre todo de FRP lineales, es decir, regresiones lineales en los parámetros. 
Éstas pueden ser o no lineales en la variable regresada o las regresoras. 

3. Para efectos prácticos, la FRP estocástica es la que importa. El término de perturbación 
estocástica u; desempeña una función crucial para estimar la FRP. 

4. La FRP es un concepto idealizado, pues en la práctica pocas veces se tiene acceso al total de 
la población de interés. Por lo general se cuenta sólo con una muestra de observaciones de la 
población. En consecuencia, se utiliza la función de regresión muestral estocástica (FRM) 
para estimar la FRP; la forma de lograrlo se analiza en el capítulo 3. 


conclusiones 


EJERCICIOS Preguntas 
2.1. ¿Cuál es la función de esperanza condicional o función de regresión poblacional? 


2.2. ¿Cuál es la diferencia entre la función de regresión poblacional y la función de regresión 
muestral? ¿Se trata de distintos nombres para la misma función? 


2.3. ¿Qué papel desempeña el término de error estocástico u; en el análisis de regresión? ¿Cuál 
es la diferencia entre el término de error estocástico y el residual ú;? 


2.4. ¿Por qué es necesario el análisis de regresión? ¿Por qué no tan sólo utilizar el valor medio 
de la variable regresada como su mejor valor? 


2.5. ¿Qué se quiere dar a entender con modelo de regresión lineal? 


2.6. Determine si los siguientes modelos son lineales en los parámetros, en las variables o en 
ambos. ¿Cuáles de estos modelos son de regresión lineal? 


Modelo Título descriptivo 
1 7 
a) Yi = Bi + f2 (z) +; Recíproco 
j 

b) Yi = fı + b2 IN Xi + ui Semilogarítmico 
c) In Y; = 61 +B2X;¡+U; Semilogarítmico inverso 
d) In Y; = In 8; + B2 In X; + u; Logarítmico o doble logarítmico 

1 T E 
e) In Y; = B1 — B2 (7) + dUi Logarítmico recíproco 

i 


Nota: In = logaritmo natural (es decir, logaritmo base e); u; es el término de perturbación estocástica. Estudiaremos estos 
modelos en el capítulo 6. 


2.7. ¿Son modelos de regresión lineal los siguientes? ¿Por qué? 
a) Y, = eß!+b2Xi+ui 
1 


Dm= 1 + ef1+b2Xi +u; 


0 inv = + (2) o 


d) Y, =B,+(0.75-— Be RD + y, 
II E A S a 


FIGURA 2.8 

Tasas de crecimiento de 
los salarios y exporta- 
ciones reales del sector 
manufacturero. Los datos 
corresponden a 50 países 
en vías de desarrollo du- 
rante 1970-1990. 


Fuente: Banco Mundial, World 


Development Report 1995, p. 55. 


Las fuentes originales son datos 


de ONUDI y del Banco Mundial. 


2.8. 


29 


2.10. 


2 ML 


2, 


PAIS 


Crecimiento promedio de los salarios del 
sector manufacturero, % anual 
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¿Qué se entiende por un modelo de regresión intrínsecamente lineal? Si en el ejercicio 
2.7d) $, valiera 0.8, ¿sería un modelo de regresión lineal o no lineal? 


Considere los siguientes modelos no estocásticos (es decir, modelos sin el término de error 
estocástico). ¿Son lineales estos modelos de regresión? De no serlo, ¿sería posible, con 
manipulaciones algebraicas apropiadas, convertirlos en modelos lineales? 


1 
Ja Bı + f2X; 
X; 
D 1 = 
) Pi t PX: 
1 
c) Y; 


14 exp (Ef — B2X,) 


Considere el diagrama de dispersión de la figura 2.8 junto con la línea de regresión. ¿Qué 
conclusión general deduce de este diagrama? ¿La línea de regresión del diagrama es una 
línea de regresión poblacional o una línea de regresión muestral? 


Del diagrama de dispersión de la figura 2.9, ¿qué conclusiones generales deduce? ¿En qué 
teoría económica se basa este diagrama de dispersión? (Pista: busque cualquier libro de 
texto de economía internacional y estudie el modelo de comercio Heckscher-Ohlin). 


¿Qué revela el diagrama de dispersión de la figura 2.10? Con base en dicho diagrama, ¿se 
puede decir que las leyes del salario mínimo propician el bienestar económico? 


¿La línea de regresión de la figura 1.3, en la Introducción, es la FRP o la FRM? ¿Por qué? 
¿Cómo se interpretarían los puntos alrededor de la línea de regresión? Además del PIB, 
¿qué otros factores, o variables, determinarían el consumo personal? 


12 


AN A A A A A A 
0.08 0.06 0.04 0.02 0.00 0.02 0.04 0.06 0.08 
Variación promedio anual de la razón PIB-exportaciones 


4 Asia Oriental y el Pacífico 4 Sur de Asia 
4% América Latina y el Caribe 0 África subsahariana 
Medio Oriente y Norte de África 
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FIGURA 2.9 

Intensidad de la capacidad 
en las exportaciones y do- 
tación de capital humano. 
Los datos corresponden a 
126 países industrializa- 
dos y en vías de desarrollo 
en 1985. Los valores tra- 
zados en el eje horizontal 
son logaritmos de la razón 
entre la escolaridad pro- 
medio alcanzada en cada 
país y la superficie de 
tierra cultivable del país; 
los valores del eje vertical 
son logaritmos de la razón 
entre las exportaciones de 
productos manufacturados 
y productos básicos. 


Fuente: Banco Mundial, World 
Development Report 1995, 

p. 59. Fuentes originales: 

datos de exportación de la 
Oficina de Estadística de las 
Naciones Unidas, base de datos 
COMTRADE; datos sobre 
educación del Programa de 

las Naciones Unidas para el 
Desarrollo (PNUD), 1990; datos 
sobre el uso de la tierra del Banco 
Mundial. 


FIGURA 2.10 

Salario mínimo y PIB per 
cápita. La muestra consta 
de 17 países en vías de de- 
sarrollo. Los años varían 
por país de 1988 a 1992. 
Los datos se dan en pre- 
cios internacionales. 


Fuente: Banco Mundial, World 
Development Report 1995, p. 75. 
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Más manufacturas 
en las exportaciones 
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Más materias primas 
en las exportaciones 
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vi 
T 


Tierra abundante; trabajadores Tierra escasa; trabajadores 
menos capacitados más capacitados 
Promedios regionales: % América Latina y el Caribe 
0 Asia Oriental y el Pacífico 4 Sur de Asia 


4 Economías de mercado industriales 4 África subsahariana 


Razón entre el salario mínimo de 
un año y el PIB per cápita 


PIB per cápita (miles de dólares) 


Ejercicios empíricos 
2.14. Se proporcionan los datos de la tabla 2.7 correspondientes a Estados Unidos de 1980 a 
2006. 


a) Grafique la tasa de participación de la fuerza laboral civil masculina en función de la 
tasa de desempleo civil para los hombres. Trace a mano una línea de regresión a través 
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Leia Año TPFLCM! TPFLCF? TDCH? TDCM* 1PH82% IPHS 

participación de la 1980 77.40000 51.50000 6.900000 7.400000 7.990000 6.840000 
aea laborade 1981 77.00000 52.10000 7.400000 7.900000 7.880000 7.430000 
Estados Unidos en 1980- 1982 76.60000 52.60000 9.900000 9.400000 7.860000 7.860000 
2006 1983 76.40000 52.90000 9.900000 9.200000 7.950000 8.190000 


1984 76.40000 53.60000 7.400000 7.600000 7.950000 8.480000 
Fuente: Economic Report of the 1985 76.30000 54.50000 7.000000 7.400000 7.910000 8.730000 
PRSTENE 1986 76.30000 55.30000 6.900000 7.100000 7.960000 8.920000 

1987 76.20000 56.00000 6.200000 6.200000 7.860000 9.130000 

1988 76.20000 56.60000 5.500000 5.600000 7.810000 9.430000 

1989 76.40000 57.40000 5.200000 5.400000 7.750000 9.800000 

1990 76.40000 57.50000 5.700000 5.500000 7.660000 10.190000 

1991 75.80000 57.40000 7.200000 6.400000 7.580000 10.500000 

1992 75.80000 57.80000 7.900000 7.000000 7.550000 10.760000 

1993 75.40000 57.90000 7.200000 6.600000 7.520000 11.030000 

1994 75.10000 58.80000 6.200000 6.000000 7.530000 11.320000 

1995 75.00000 58.90000 5.600000 5.600000 7.530000 11.640000 

1996 74.90000 59.30000 5.400000 5.400000 7.570000 12.030000 

1997 75.00000 59.80000 4.900000 5.000000 7.680000 12.490000 

1998 74.90000 59.80000 4.400000 4.600000 7.890000 13.000000 

1999 74.70000 60.00000 4.100000 4.300000 8.000000 13.470000 

2000 74.80000 59.90000 3.900000 4.100000 8.030000 14.000000 

2001 74.40000 59.80000 4.800000 4.700000 8.110000 14.530000 

2002 74.10000 59.60000 5.900000 5.600000 8.240000 14.950000 

2003 73.50000 59.50000 6.300000 5.700000 8.270000 15.350000 

2004 73.30000 59.20000 5.600000 5.400000 8.230000 15.670000 

2005 73.30000 59.30000 5.100000 5.100000 8.170000 16.110000 

2006 73.50000 59.40000 4.600000 4.600000 8.230000 16.730000 


Las siguientes menciones se refieren al documento original. 

| TPFLCM = Tasa de participación de la fuerza laboral civil masculina (%), tabla B-39, p. 277. 
2 TPFLCF = Tasa de participación de la fuerza laboral civil femenina (%), tabla B-39, p. 277. 

3 TDCH = Tasa de desempleo civil, hombres (%), tabla B-42, p. 280. 

4 TDCM = Tasa de desempleo civil, mujeres (%), tabla B-42, p. 280. 

$ IPH82 = Ingresos promedio por hora (dólares de 1982), tabla B-47, p. 286. 

6 IPH = Ingresos promedio por hora (dólares actuales), tabla B-47, p. 286. 


de los puntos de dispersión. Mencione a priori la relación esperada entre ambas tasas y 
comente cuál es la teoría económica que sirve de fundamento. ¿Este diagrama de dis- 
persión apoya dicha teoría? 

b) Repita el inciso a) para las mujeres. 

Cc 


== 


Ahora grafique las tasas de participación laboral de ambos sexos en función de los 
ingresos promedio por hora (en dólares de 1982). (Quizá convenga utilizar diagramas 
independientes.) Ahora, ¿qué concluye? ¿Cómo racionalizaría esa conclusión? 

d) ¿Se puede trazar la tasa de participación de la fuerza laboral en función de la tasa de 
desempleo y de los ingresos promedio por hora, de manera simultánea? Si no fuera así, 
¿cómo expresaría verbalmente la relación entre esas tres variables? 


2.15. En la tabla 2.8 se proporcionan los datos sobre gasto en comida y gasto total (en rupias) 
para una muestra de 55 familias rurales de India. (A principios de 2000, un dólar estado- 
unidense equivalía a casi 40 rupias indias.) 

a) Grafique los datos con el eje vertical para el gasto en comida y el eje horizontal para el 
gasto total; trace una línea de regresión a través de los puntos de dispersión. 
b) ¿Qué conclusiones generales se pueden deducir de este ejemplo? 
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TABLA 2.8 Gasto total y en comida (rupias) 


Gasto en 
Observación comida 

1 217.0000 
2 196.0000 
3 303.0000 
4 270.0000 
5 325.0000 
6 260.0000 
7 300.0000 
8 325.0000 
9 336.0000 
10 345.0000 
11 325.0000 
12 362.0000 
13 315.0000 
14 355.0000 
15 325.0000 
16 370.0000 
17 390.0000 
18 420.0000 
19 410.0000 
20 383.0000 
21 315.0000 
22 267.0000 
23 420.0000 
24 300.0000 
25 410.0000 
26 220.0000 
27 403.0000 
28 350.0000 


Gasto Gasto en Gasto 
total Observación comida total 
382.0000 29 390.0000 655.0000 
388.0000 30 385.0000 662.0000 
391.0000 31 470.0000 663.0000 
415.0000 32 322.0000 677.0000 
456.0000 33 540.0000 680.0000 
460.0000 34 433.0000 690.0000 
472.0000 35 295.0000 695.0000 
478.0000 36 340.0000 695.0000 
494.0000 37 500.0000 695.0000 
516.0000 38 450.0000 720.0000 
525.0000 39 415.0000 721.0000 
554.0000 40 540.0000 730.0000 
575.0000 41 360.0000 731.0000 
579.0000 42 450.0000 733.0000 
585.0000 43 395.0000 745.0000 
586.0000 44 430.0000 751.0000 
590.0000 45 332.0000 752.0000 
608.0000 46 397.0000 752.0000 
610.0000 47 446.0000 769.0000 
616.0000 48 480.0000 773.0000 
618.0000 49 352.0000 773.0000 
623.0000 50 410.0000 775.0000 
627.0000 51 380.0000 785.0000 
630.0000 52 610.0000 788.0000 
635.0000 53 530.0000 790.0000 
640.0000 54 360.0000 795.0000 
648.0000 55 305.0000 801.0000 

650.0000 


Fuente: Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics and Data Analysis for Developing Countries, Routledge, Nueva York, 1998, p. 457. 


2.16. 


c) Diga a priori si se esperaría que el gasto en comida se incrementara de manera lineal 
conforme el gasto total aumentase, independientemente del nivel de gasto. ¿Por qué? 
Puede emplear el gasto total como representante del ingreso total. 


La tabla 2.9 presenta datos sobre el promedio de calificaciones del examen de aptitud 
académica SAT de los estudiantes que solicitaron admisión a licenciatura de 1972 a 2007. 
Estos datos representan las calificaciones en el examen de lectura crítica y matemáticas de 
hombres y mujeres. La categoría de redacción se introdujo en 2006. Por tanto, estos datos 
no se incluyen. 

a) Con el eje horizontal para los años y el vertical para las calificaciones del examen SAT, 
grafique las calificaciones de lectura crítica y matemáticas de hombres y mujeres por 
separado. 

b) ¿Qué conclusiones generales se obtienen? 

c) Al conocer las calificaciones de lectura crítica de hombres y mujeres, ¿cómo haría para 
predecir las calificaciones de matemáticas? 

d 


A 


Grafique las calificaciones de matemáticas de las mujeres contra las calificaciones de 
matemáticas de los hombres. ¿Qué observa? 


TABLA 2.9 

Promedio grupal total 
de las calificaciones del 
examen de razonamiento 
SAT: estudiantes que 
solicitaron ingreso a 
licenciatura, 1972-2007 


Fuente: College Board, 2007. 
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Lectura crítica Matemáticas 

Año Hombres Mujeres Total Hombres Mujeres Total 
1972 531 529 530 527 489 509 
1973 523 521 523 525 489 506 
1974 524 520 521 524 488 505 

1975 515 509 512 518 479 498 
1976 511 508 509 520 475 497 
1977 509 505 507 520 474 496 
1978 511 503 507 517 474 494 
1979 509 501 505 516 473 493 

1980 506 498 502 515 473 492 
1981 508 496 502 516 473 492 
1982 509 499 504 516 473 493 

1983 508 498 503 516 474 494 
1984 511 498 504 518 478 497 
1985 514 503 509 522 480 500 
1986 515 504 509 523 479 500 
1987 512 502 507 523 481 501 

1988 512 499 505 521 483 501 

1989 510 498 504 523 482 502 
1990 505 496 500 521 483 501 

1991 503 495 499 520 482 500 
1992 504 496 500 521 484 501 

1993 504 497 500 524 484 503 
1994 501 497 499 523 487 504 
1995 505 502 504 525 490 506 
1996 507 503 505 527 492 508 
1997 507 503 505 530 494 511 

1998 509 502 505 531 496 512 
1999 509 502 505 531 495 511 

2000 507 504 505 533 498 514 
2001 509 502 506 533 498 514 
2002 507 502 504 534 500 516 
2003 512 503 507 537 503 519 
2004 512 504 508 537 501 518 
2005 513 505 508 538 504 520 
2006 505 502 503 536 502 518 
2007 504 502 502 533 499 515 


Nota: Para 1972-1986 se aplicó una fórmula a la media y a la desviación estándar originales para convertir la media a la escala re- 
centrada. Para 1987-1995, las calificaciones de cada estudiante se convirtieron a la escala recentrada y luego se volvió a calcular la 
media. De 1996 a 1999, casi todos los estudiantes recibieron calificaciones según la escala recentrada. Toda calificación basada en 
la escala original se convirtió a la escala recentrada antes de calcular la media. De 2000 a 2007, todas las calificaciones se basaron 
en la escala recentrada. 


2.17. La tabla 2.10 presenta datos sobre las calificaciones del examen de razonamiento SAT cla- 
sificadas por ingreso para tres tipos de pruebas: lectura crítica, matemáticas y redacción. 
En el ejemplo 2.2 se presentó la figura 2.7, que contiene una gráfica de la media de las 
calificaciones de matemáticas en función del ingreso familiar promedio. 
a) Consulte la figura 2.7 y prepare una gráfica parecida que relacione el promedio de cali- 
ficaciones en lectura crítica con el ingreso familiar promedio. Compare sus resultados 
con los de la figura 2.7. 
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TABLA 2.10 p 

Examen de Número de Lectura crítica Matemáticas Redacción 

razonamiento SAT : ad que 

i i ngreso presentaron 

GRE PATERE familiar ($) el examen Media DE Media DE Media DE 

a <10 000 40 610 427 107 451 122 423 104 

B 10 000-20 000 72745 453 106 472 113 446 102 

ingreso a licenciatura, tabla 11. 20 000-30 000 61 244 454 102 465 107 444 97 
30 000-40 000 83 685 476 103 485 106 466 98 
40 000-50 000 75 836 489 103 486 105 477 99 
50 000-60 000 80 060 497 102 504 104 486 98 
60 000-70 000 75 763 504 102 511 103 493 98 
70 000-80 000 81 627 508 101 516 103 498 98 
80 000-100 000 130 752 520 102 529 104 510 100 
>100 000 245 025 544 105 556 107 537 103 


b) Repita el inciso a) para relacionar el promedio de calificaciones de redacción con el 
ingreso familiar promedio, y compare sus resultados con los de las otras dos gráficas. 


c) Examine las tres gráficas y mencione qué conclusión general puede obtener. 


Capítulo 


Modelo de regresión 
con dos variables: 
problema de estimación 


Como explicamos en el capítulo 2, la primera tarea consiste en estimar la función de regresión 
poblacional (FRP) con base en la función de regresión muestral (FRM) en la forma más preci- 
sa posible. En el apéndice A se analizan dos métodos de estimación frecuentes: 1) mínimos 
cuadrados ordinarios (MCO) y 2) máxima verosimilitud (MV). El método de MCO es el más 
común en el análisis de regresión, sobre todo por ser mucho más intuitivo y matemáticamente 
más sencillo que el método de máxima verosimilitud. Además, como veremos más adelante, en 
el contexto de la regresión lineal, por lo general los dos métodos proporcionan resultados simi- 
lares. 


3.1 Método de mínimos cuadrados ordinarios (MCO) 


El método de mínimos cuadrados ordinarios se atribuye a Carl Friedrich Gauss, matemático 
alemán. A partir de ciertos supuestos (estudiados en la sección 3.2), el método de mínimos cua- 
drados presenta propiedades estadísticas muy atractivas que lo han convertido en uno de los más 
eficaces y populares del análisis de regresión. Para entenderlo, primero explicaremos el principio 
de los mínimos cuadrados. 

Recuerde la FRP de dos variables: 


Y, =P + PX, + ui (2.4.2) 


Sin embargo, como mencionamos en el capítulo 2, la FRP no es observable directamente. Se 
calcula a partir de la FRM: 
Y; = ĝi + ÊX: +0 (2.6.2) 
=f +û; (2.6.3) 
donde Y; es el valor estimado (media condicional) de Y;. 
Pero, ¿cómo se determina la FRM? Para hacerlo, se procede de la siguiente forma. Primero, 
se expresa la ecuación (2.6.3) como 
i,=Y, Y, 


A n (3.1.1) 
= Y; — ßĝı — PX; 
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FIGURA 3.1 
Criterio de mínimos cua- 
drados. 


que muestra que los %; (los residuos) son simplemente las diferencias entre los valores observados 
y los estimados de Y. 

Ahora, dados n pares de observaciones de Y y X, nos interesa determinar la FRM de manera 
que quede lo más cerca posible de la Y observada. Con este fin, se adopta el siguiente criterio: se- 
leccionar la FRM de modo que la suma de los residuos » "1; = » (Y; — Y;) sea la menor posible. 
Este criterio, aunque es intuitivamente atractivo, no es muy bueno, como se ve en el diagrama de 
dispersión hipotético de la figura 3.1. 

Si se adopta el criterio de reducir }_ ĝ;, la figura 3.1 muestra que los residuos ù y ùz, al igual 
que los residuos 11, y ús, reciben el mismo peso en la suma (1 + ú2 + úz + ús), aunque los dos 
primeros están mucho más cerca la FRM que los dos últimos. En otras palabras, a todos los re- 
siduos se les da la misma importancia sin considerar cuán cerca o cuán dispersas estén las ob- 
servaciones individuales de la FRM. Debido a lo anterior, es muy posible que la suma algebraica 
de las ù; sea pequeña (aun cero) a pesar de que las ú; estén muy dispersas respecto de la FRM. 
Para verificar lo anterior, 41, û2, úz y ús en la figura 3.1 asumirán respectivamente los valores de 
10, -2, +2 y —10. La suma algebraica de estos residuos es cero a pesar de que ù; y ús presentan 
una mayor dispersión alrededor de FRM que ù y ûz. Se evita este problema con el criterio de 
minimos cuadrados, el cual establece que la FRM se determina en forma tal que 


Y í?= n- 


e (3.1.2) 
=J; - ĝi- ÊX) 
sea lo más pequeña posible, donde 2? son los residuos elevados al cuadrado. Al elevar al cuadrado 
ú;, este método da más peso a los residuos como ù; y ús en la figura 3.1 que a los residuos ù y 
13. Como ya anotamos, con el criterio de Y ñ; mínima, la suma puede ser pequeña a pesar de que 
los ú; estén muy dispersos alrededor de la FRM. La situación anterior no se presenta con el pro- 
cedimiento de mínimos cuadrados, pues, entre mayor sea ù; (en valor absoluto), mayor será Y” de: 
Otra justificación del método de mínimos cuadrados es que los estimadores obtenidos con este 
método tienen algunas propiedades estadísticas muy deseables, como veremos en breve. 


TABLA 3.1 
Determinación experi- 
mental de la FRM 
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Yi Xı Yui ûii ûĝ Vai Ún; ús 
(1) (2) (3) (4) (5) (6) (7) (8) 
4 1 2.929 1.071 1.147 4 0 0 
5 4 7.000 2.000 4.000 7 -2 4 
7 5 8.357 -1.357 1.841 8 -1 1 
12 6 9.714 2.286 5.226 9 3 9 
Suma: 28 16 0.0 12.214 0 14 
Notas: Îi= = 1.572 + 1.357%; (es decir, ĝi = = 1.572 y ĝ = = 1.357) 
Ya =3.0+ 1.0X; (es decir, Êi =3 y ĝ: = 1.0) 
i= O- Îi) 
io = (Yi — Ya) 
A partir de la ecuación (3.1.2) es evidente que 
Xâ = fÊ, Ê) (3.1.3) 


es decir, la suma de los residuos elevados al cuadrado es algún tipo de función de los estimadores 
Êi y B». Por cada conjunto dado de datos con diferentes valores pue Br y B», se obtendrá como 
resultado ù diferentes y, por consiguiente, valores diferentes de >” û?. Para ver esto claramente, 
consideremos las cifras hipotéticas de Y y de X de las primeras dos columnas de la tabla 3.1. Rea- 
licemos ahora dos experimentos. En el experimento 1, sea ĝi = 1.572 y B2=1.357 (por ahora no 
preocupa la forma como se obtuvieron estos valores; es decir, se trata sólo de conjeturas). Con 
estos valores B y los valores de X dados en la columna (2) de la tabla 3.1, se calcula fácilmente 
la Y, estimada dada en la columna (3) de la tabla y denotada Y; (el subíndice 1 indica el primer 
experimento). Ahora realicemos otro experimento, pero esta vez con los valores de Bi=3 y 
$82 = 1. Los valores estimados de Y; a partir de este experimento están dados por Y, en la columna 
(6) de la tabla 3.1. Como los valores de B en los dos experimentos son diferentes, se obtienen 
también valores diferentes para los residuos estimados, como aparece en la tabla; 411; correspon- 
den a los del primer experimento y ùz; corresponden a los del segundo. Los cuadrados de estos 
residuos están dados en las columnas (5) y (8). Como es lógico, según se esperaba de la ecuación 
(3.1.3), estas sumas de residuos al cuadrado son diferentes, pues se basan en conjuntos diferentes 
de valores de Ê y 

Ahora, ¿qué conjuntos de Ê se deben escoger? Como los valores de B del primer experimento 
dan una » û? (= 12.214) inferior a la ų que se obtiene con los valores de Ê del segundo exper 
mento (= 14), se puede decir que las Ê estimadas del primer experimento son los “mejores” va- 
lores. Pero, ¿cómo saberlo?: si se tuviera tiempo y paciencia infinitos, se podrían realizar muchos 
más experimentos de este tipo, escogiendo cada vez diferentes conjuntos de B y comparando las 
Y û? resultantes, y luego escogiendo el conjunto de valores de Ê que diera el menor valor posible 
de » > û?, y suponiendo, desde luego, que se consideraron todos los valores posibles de £1 y £2. 
Pero como el tiempo y, sin duda, la paciencia suelen ser escasos, se necesitan considerar algunos 
atajos ante este proceso de ensayo y error. Por fortuna, el método de mínimos cuadrados ofrece 
un atajo. El principio o método de mínimos cuadrados elige Bi y Ê de manera que, para una 
muestra o conjunto de datos determinados, J` ù? es la más pequeña posible. En otras palabras, 
para una muestra dada, proporciona valores estimados únicos de 61 y 62 que producen el valor 
más pequeño o reducido posible de X ù. ¿Cómo es esto posible? Se trata de un ejercicio sencillo 


1 Para los curiosos, estos valores se obtienen por el método de mínimos cuadrados, que explicaremos en 
breve. Véanse las ecuaciones (3.1.6) y (3.1.7). 
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de cálculo diferencial. Como se observa en el apéndice 3A, sección 3A.1, el proceso de diferen- 
ciación genera las siguientes ecuaciones para estimar 6, y f2: 


Y Y =nfi+ 62) X (3.1.4) 


Y X= ÂY X+) Xi (3.1.5) 


donde n es el tamaño de la muestra. Estas ecuaciones simultáneas se conocen como ecuaciones 
normales. 
Al resolver las ecuaciones normales al mismo tiempo, obtenemos 


ê nA XY - NX Y Y 
? AN 
AU 
DEA 
— DE 
DOF 


(3.1.6) 


donde X y Y son las medias muestrales de X y Y y donde se definen x; = (X; — X) y 
y¡= (Y; — Y). De aquí en adelante adoptaremos la convención de utilizar letras minúsculas para 
representar desviaciones respecto de los valores medios. 


EAS 
TI (3.1.7) 
2a 


Êi 


El último paso en (3.1.7) se obtiene directamente de la ecuación (3.1.4) mediante manipulación 
algebraica simple. 

Por cierto, advierta que, con identidades algebraicas simples, la fórmula (3.1.6) para estimar 
ß2 se expresa también como 


2 XiVi 
B2= 2 z 
D 
— Dalh 
E NA?—nx? 
EN Xy; 
YX- nY 


(3.1.8)? 


2 Nota 1:5 x? = (Xi - X)? = X? -2 XX +Z X? =F X?—2X 97 Xi + X?, pues X es una cons- 
tante. Además, aprecie que, como Y X; = nX y Y X? = nX? porque X es una constante, finalmente obtene- 
mos Y x? = Y X? — nX?. 

Nota 2: xiy = O xi- Y)= Y xi Y YO xi = xiYi— Y (Xi — X) = Y xi Yi, pues Y es una cons- 
tante y la suma de las desviaciones de una variable de su valor medio [por ejemplo, Y (X; — X) siempre es 
cero. De la misma manera, Y” y; = Y (Y; — Y) = 0. 


FIGURA 3.2 
Diagrama que muestra 
cómo la línea de regresión 
muestral pasa a través de 
los valores de las medias 
muestrales de Y y X. 
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Los estimadores obtenidos antes se conocen como estimadores de mínimos cuadrados, pues 
se derivan del principio de mínimos cuadrados. Observe las siguientes propiedades numéricas 
de los estimadores obtenidos con el método de MCO: “Propiedades numéricas son las que se 
mantienen como consecuencia del uso de mínimos cuadrados ordinarios, sin considerar la forma 
como se generaron los datos”.? En breve consideraremos también las propiedades estadísticas 
de los estimadores MCO, es decir, propiedades “que se mantienen sólo con ciertos supuestos 
sobre la forma como se generaron los datos”.* (Véase el modelo clásico de regresión lineal en la 
sección 3.2.) 


I. Los estimadores de MCO se expresan únicamente en términos de las cantidades (es decir, X 
y Y) observables (es decir, muestras). Por consiguiente, se calculan on facilidad. 

Il. Son estimadores puntuales: dada la muestra, cada estimador proporciona un solo valor 
(puntual) del parámetro poblacional pertinente. (En el capítulo 5 consideraremos los estima- 
dores por intervalos, que proporcionan un intervalo de valores posibles para los parámetros 
poblacionales no conocidos.) 

IHI. Una vez obtenidos los estimadores de MCO de los datos de la muestra, se obtiene sin pro- 
blemas la línea de regresión muestral (figura 3.1). La línea de regresión así obtenida tiene las 
siguientes propiedades: 

1. Pasa a través de las medias muestrales de Y y X. Esto es evidente por la ecuación (3.1.7), 
pues esta ecuación puede escribirse Y = Bi+ bX , como se observa gráficamente en la 
figura 3.2. 


> 


3 Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford University Press, 
Nueva York, 1993, p. 3. 


4 Ibid. 
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2. El valor medio de Y estimada = Y, es igual al valor medio de Y real para 


Y, = ĝi + ÊX; 
=(Y — PX) + ÊX; (3.1.9) 
=Y + Ê(X; — X) 


Al sumar ambos lados de esta última igualdad sobre los valores muestrales y dividir por 
el tamaño n de la muestra, obtenemos: 


Î=F (3.1.10)5 
donde se aprovecha que Y (X; — X) = 0. (¿Por qué?) 


3. El valor medio de los residuos ù es cero. Del apéndice 3A, sección 3A.1, la primera 
ecuación es 


-2X (Y, — Bi - ÊX) =0 
Pero, como Üü; = Y, — Bi — ÊX; la ecuación anterior se reduce a —2 ` û; = 0, y se 


tiene que ú = 0.6 
Como resultado de la propiedad anterior, la regresión muestral 


Y, = ĝi =P ÊX; +4; (2.6.2) 


puede definirse de una forma en la cual Y y X se expresan como desviaciones de sus me- 
dias. Para apreciar lo anterior, sume (2.6.2) en ambos lados para obtener 


Y Y =p + Y 1406, 


E ` (3.1.11) 
=nBr + Ba Y X; donde Y 2; = 0 
Al dividir la ecuación (3.1.11) entre n, obtenemos 
Y = ĝi + ÊX (3.1.12) 


que es lo mismo que (3.1.7). Si restamos la ecuación (3.1.12) de la (2.6.2), obtenemos 


Y, -Y=f(X,-D+%, 


yi = Êzxi + û; (3.1.13) 


donde y; y x; de acuerdo con lo convenido, representan desviaciones de los valores res- 
pectivos de sus medias (muestrales). 


5 Se debe señalar que este resultado es correcto únicamente cuando el modelo de regresión incluye el tér- 
mino del intercepto £1. Como se demuestra en el apéndice 6A, sección 6A.1, cuando £; está ausente del 
modelo, este resultado no se da necesariamente. 

é Este resultado también requiere que el término del intercepto Bi esté presente en el modelo (véase el 
apéndice 6A, sección 6A.1). 
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La ecuación (3.1.13) se conoce como forma de desviación. Observe que el término 
del intercepto $61 ha desaparecido. Pero este término siempre podrá estimarse mediante 
(3.1.7), pues la línea de regresión muestral pasa a través de las medias muestrales de Y y 
X. Una ventaja de la forma de desviación es que ésta simplifica a menudo los cálculos de 
las fórmulas. 

Observe de paso que, en la forma de desviación, la FRM se escribe como 


Îi = foxi (3.1.14) 


mientras que en las unidades de medición originales, dicha expresión era Y, = Êi + ÊX; 
como en (2.6.1). 

4. Los residuos ù; no están correlacionados con el valor pronosticado de Y;, lo cual se verifica 
de la siguiente manera: con la forma de desviación se escribe 


S 0 = Br xi; 
Ê» Y xi — B2xi) 
= bad — BD (3.1.15) 
=} x -b9 
0 


II 


II 


donde se aprovecha que ĝ = YN a NX: 
5. Los residuos 1; no están correlacionados con X; es decir, Y ú;X; = 0. Esto se desprende 
de la ecuación (2) en el apéndice 3A, sección 3A.1. 


3.2 Modelo clásico de regresión lineal: fundamentos 
del método de mínimos cuadrados 


Si deseamos estimar sólo 61 y 62, basta el método MCO presentado de la sección anterior. Pero 
recuerde del capitulo 2 que en el análisis de regresión el objetivo es no sólo obtener Bi y B», sino 
también inferir los verdaderos fB, y £2; por ejemplo, si quisiéramos saber cuán cerca están Bi y 
Êz de sus contrapartes en la población, o cuán cerca está Y, de la verdadera E(Y | X;). Para esto no 
sólo se debe especificar la forma funcional del modelo, como aparece en (2.4.2), sino también 
hacer ciertos supuestos sobre la forma como se genera Y;. Para ver por qué es necesario este re- 
quisito, observemos la FRP: Y; = f¡ + B2A + u;. Esta expresión muestra que Y; depende de X; y 
de u;. Por consiguiente, mientras no se especifique la forma como se crean o se generan X; y ul, no 
hay manera de hacer alguna inferencia estadística sobre Y;, ni tampoco, como veremos, sobre 6; 
y 6. Así, los supuestos sobre la(s) variable(s) X; y el término de error son relevantes para lograr 
una interpretación válida de los valores estimados de la regresión. 

El modelo de Gauss, modelo clásico o estándar de regresión lineal (MCRL), es el cimiento 
de la mayor parte de la teoría econométrica y plantea siete supuestos.” Primero los estudiaremos en 
el contexto del modelo de regresión con dos variables y, en el capítulo 7, se extenderán a los mo- 
delos de regresión múltiple, es decir, modelos en los cuales hay más de una regresora. 


7 Es un modelo clásico en el sentido de que Gauss lo empleó por primera vez en 1821 y desde entonces 
sirve como norma o patrón con el cual comparar los modelos de regresión que no satisfacen los supuestos 
gaussianos. 


62 Parte Uno Modelos de regresión uniecuacionales 


SUPUESTO 1 


Modelo de regresión lineal: El modelo de regresión es lineal en los parámetros, aunque 
puede o no ser lineal en las variables. Es decir, el modelo de regresión como se muestra en la 
ecuación (2.4.2) 


Y; = Bi+ 2 Xi + Us (2.4.2) 


Como analizaremos en el capítulo 7, este modelo puede extenderse para incluir más variables 
explicativas. 


Ya vimos el modelo (2.4.2) en el capítulo 2. Como los modelos de regresión lineal en los pará- 
metros son el punto de partida del MCRL, mantendremos este supuesto a lo largo del libro.* Re- 
cuerde que la regresada Y y la regresora X pueden no ser lineales, como vimos en el capítulo 2. 


SUPUESTO 2 


Valores fijos de X, o valores de X independientes del término de error: Los valores 
que toma la regresora X pueden considerarse fijos en muestras repetidas (el caso de la regresora 
fija), o haber sido muestreados junto con la variable dependiente Y (el caso de la regresora esto- 
cástica). En el segundo caso se supone que la(s) variable(s) X y el término de error son indepen- 
dientes, esto es, cov(X;, u) = 0. 


Esto puede explicarse en términos del ejemplo de la tabla 2.1 (página 35). Consideremos las 
diversas poblaciones de Y correspondientes a los niveles de ingreso en esa tabla. Al mantener el 
valor del ingreso X fijo al nivel de 80 dólares, se selecciona al azar una familia y se observa su 
consumo semanal Y, 60 dólares. Mantengamos X en 80 y seleccionamos aleatoriamente a otra 
familia, y observamos su valor Y de 75 dólares. En cada una de estas selecciones (es decir, mues- 
treo repetido), el valor de X está fijo en 80. Se puede repetir este proceso para todos los valores de 
X de la tabla 2.1. De hecho, los datos muestrales de las tablas 2.4 y 2.5 se seleccionaron así. 

¿Por qué suponemos que los valores de X son no estocásticos? En virtud de que en la mayoría 
de las ciencias sociales los datos suelen recopilarse de manera aleatoria para las variables Y y X, 
parece natural suponer lo contrario: que la variable X, lo mismo que la variable Y es aleatoria o 
estocástica. Sin embargo, al principio suponemos que las variable(s) X son no estocásticas por 
las siguientes razones: 

Primera, al principio, esto sirve para simplificar el análisis e introducir poco a poco al lector 
a las complejidades del análisis de regresión. Segunda, en situaciones experimentales tal vez 
no sea irreal suponer que los valores de X son fijos. Por ejemplo, un agricultor puede dividir su 
tierra en varias parcelas y aplicarles diferentes cantidades de fertilizante para ver el efecto en el 
rendimiento del cultivo. Asimismo, una tienda de departamentos puede ofrecer diferentes tasas 
de descuento en un producto para ver su efecto en los consumidores. En ocasiones conviene 
fijar los valores de X para un propósito específico. Supongamos que deseamos obtener el in- 
greso promedio semanal de los trabajadores (Y) con varios niveles de escolaridad (X ), como los 
datos presentados en la tabla 2.6. En este caso, la variable X se puede considerar fija o no alea- 
toria. Tercera, como se muestra en el capítulo 13, aunque las variables X sean estocásticas, los 
resultados estadísticos de la regresión lineal basada en el caso de las regresoras fijas también 


8 Sin embargo, se presenta un análisis breve de los modelos de regresión no lineales en los parámetros, en el 
capítulo 14, en beneficio de los estudiantes más avanzados. 
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son válidos cuando las variables X son aleatorias, en tanto se cumplan algunas condiciones; una 
de ellas es que la regresora X y el término de error u; sean independientes. Como señala James 
Davidson: “...este modelo [es decir, el de la regresora estocástica] “imita” al modelo de regresora 
fija, y [...] muchas propiedades estadísticas de los mínimos cuadrados del modelo de regreso- 
ra fija siguen siendo válidos”.? 

Por todas estas razones, primero analizaremos con detalle el MCRL (regresora fija). Sin em- 
bargo, en el capítulo 13 veremos el caso de las regresoras estocásticas en cierto detalle y seña- 
laremos las ocasiones en que es necesario considerar los modelos de regresora estocástica. Por 
cierto, anote que si la variable X es estocástica, el modelo resultante se llama modelo neoclásico 
de regresión lineal (MNRL),'% en contraste con el MCRL, donde las X se tratan como variables 
fijas o no aleatorias. Para efectos de análisis, denominaremos al primero modelo de regresora 
estocástica, y al segundo, modelo de regresora fija. 


SUPUESTO 3 


El valor medio de la perturbación u; es igual a cero: Dado el valor de X;, la media o el 
valor esperado del término de perturbación aleatoria u; es cero. Simbólicamente, tenemos que 


Eu Xi) = 0 (3.2.1) 


O, si X no es estocástica, 


E(u;) =0 


FIGURA 3.3 
Distribución condicional 
de las perturbaciones u;. 


El supuesto 3 establece que el valor de la media de u;, que depende de las X; dadas, es cero. 
Geométricamente, este supuesto se representa mediante una gráfica, como en la figura 3.3, que 
muestra algunos valores de la variable X y las poblaciones Y asociadas a cada uno de ellos. Puede 


Y 


(9) Media 


FRP: Y, = $, + BX; 


? James Davidson, Econometric Theory, Blackwell, Reino Unido, 2000, p. 10. 


10 Término acuñado por Arthur S. Goldberger, A Course in Econometrics, Harvard University Press, Cambridge, 
Massachusetts, 1991, p. 264. 
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observar que cada población Y correspondiente a un X dado está distribuida alrededor de su 
media (que se representa por los puntos dentro de un círculo sobre la FRP), con algunos valores 
de Y por encima y por debajo de ésta. Las distancias por encima y por debajo de los valores me- 
dios no son otra cosa que la u;. La ecuación (3.2.1) requiere que el promedio o valor medio de 
estas desviaciones correspondientes a cualquier X dado sea cero. 

No es difícil entender este supuesto en vista de lo que vimos en la sección 2.4 (véase la ecua- 
ción 2.4.5). Lo que sostiene el supuesto 3 es que los factores no incluidos explícitamente en el 
modelo y, por consiguiente, incorporados en u;, no afectan sistemáticamente el valor de la media 
de Y; es decir, los valores positivos de u; se cancelan con los valores negativos de u;, de manera 
que el efecto medio o promedio sobre Y es cero.'! 

Observe, por cierto, que el supuesto £(u;|X;) = 0 implica que E(Y;| X) = Bı + B2 Xi. (¿Por 
qué?) Por consiguiente, los dos supuestos son equivalentes. 

Es importante señalar que el supuesto 3 implica que no hay sesgo de especificación o error 
de especificación en el modelo del análisis empírico. En otras palabras, el modelo de regresión 
está especificado correctamente. Algunos ejemplos del error de especificación serían omitir va- 
riables explicativas importantes, incluso las variables innecesarias, o elegir una forma funcional 
equivocada de la relación entre las variables Y y X. Veremos este tema a fondo en el capítulo 13. 

También observe que si la media condicional de una variable aleatoria, dada otra variable alea- 
toria, es cero, la covarianza entre las dos variables es cero y, por tanto, las dos variables no están 
correlacionadas. En consecuencia, el supuesto 3 implica que X; y u; no están correlacionadas.!? 

La razón para suponer que el término de perturbación u y las variables explicativas X no están 
correlacionadas es sencilla. Cuando expresamos la FRP en la ecuación (2.4.2), supusimos que Y 
y u (que representa la influencia de todas las variables omitidas) ejercen influencias independien- 
tes (y aditivas) en Y, Pero si X y u están correlacionadas, no es posible evaluar los efectos de cada 
una sobre Y. Así, si X y u tienen correlación positiva, X aumenta cuando u aumenta, y disminuye 
cuando u disminuye. Asimismo, si X y u tienen correlación negativa, X se incrementa cuando u 
se reduce, y disminuye cuando u aumenta. En estas situaciones es muy posible que el término de 
error incluya en realidad algunas variables que debieron incluirse como regresoras adicionales en 
el modelo. Por esta razón, el supuesto 3 es otra forma de decir que no hay error de especificación 
en el modelo de regresión elegido. 


SUPUESTO 4 


Homoscedasticidad o varianza constante de u;: La varianza del término de error, o de 
perturbación, es la misma sin importar el valor de X. Simbólicamente, tenemos que 
var (u) = E[u; — E(uil Xp? 
= E(u? X), por el supuesto 3 


E(u?), si X; son variables no estocásticas 


= 0? (3.2.2) 


donde var significa varianza. 


11 Para una explicación más técnica de la necesidad del supuesto 3, véase E. Malinvaud, Statistical Methods 
of Econometrics, Rand McNally, Chicago, 1966, p. 75. Véase también el ejercicio 3.3. 


12 Sin embargo, lo contrario no es válido porque la correlación es una medida sólo de asociación lineal. Es 
decir, aunque X; y u; no estén correlacionadas, la media condicional de u; dada X; puede no ser cero. No obs- 
tante, si X; y u; están correlacionadas, E(u;| X) debe ser un número distinto de cero, lo que viola el supuesto 
3. Este punto se debe a Stock y Watson. Véase James H. Stock y Mark W. Watson, Introduction to Econome- 
trics, Addison-Wesley, Boston, 2003, pp. 104-105. 


FIGURA 3.4 


Homoscedasticidad. 


FIGURA 3.5 


Heteroscedasticidad. 
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La ecuación (3.2.2) establece que la varianza de u; para cada X; (es decir, la varianza condi- 
cional de u;) es algún número positivo constante igual a o°. Técnicamente, la ecuación (3.2.2) 
representa el supuesto de homoscedasticidad, o igual (homo) dispersión (cedasticidad), o igual 
varianza. La palabra proviene del verbo griego skedanime, que significa dispersar o esparcir. 
Planteado de otra forma, (3.2.2) significa que las poblaciones Y correspondientes a diversos va- 
lores de X tienen la misma varianza. En términos llanos, la variación alrededor de la línea de 
regresión (la línea de la relación promedio entre X y Y) es la misma para todos los valores 
de X; no aumenta ni disminuye conforme varía X. En el diagrama de la figura 3.4 se aprecia esta 
situación. 

En contraste, consideremos la figura 3.5, donde la varianza condicional de la población Y 
varía con X. Esta situación se conoce apropiadamente como heteroscedasticidad, o dispersión 
desigual, o varianza desigual. Simbólicamente, en esta situación, la ecuación (3.2.2) se escribe 
como 


var (u| X) = 0? (3.2.3) 


Observe el subíndice sobre o? en la ecuación (3.2.3), el cual indica que la varianza de la pobla- 
ción Y ya no es constante. 


fu) 
233 
ej 
33 
n 
pir: 
AS 
2 Y 
3 A 
nl Z 
FRP: Y; = B¡ + PX; 
X 
fu) 


Densidad de 
probabilidad de u; 
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Para diferenciar claramente las dos situaciones, sea Y el gasto de consumo semanal y X el in- 
greso semanal. Las figuras 3.4 y 3.5 muestran que, a medida que el ingreso aumenta, el consumo 
promedio también aumenta. Pero en la figura 3.4 la varianza del consumo permanece igual para 
todos los niveles de ingreso, mientras que en la figura 3.5 aumenta con incrementos en el ingreso. 
En otras palabras, en promedio, las familias más ricas consumen más que las familias más po- 
bres, pero hay también mayor variabilidad en el consumo que en las primeras. 

Para entender el fundamento de este supuesto, observe la figura 3.5. Como lo muestra esta 
figura, var(u| X1) < var (ul X2), . . . , < var (u| X;). Por consiguiente, lo más probable es que las ob- 
servaciones de Y que provienen de la población con X= X estarían más cercanas a la FRP que 
las que vienen de poblaciones correspondientes a X= X2, X= 45, y así sucesivamente. En resu- 
men, no todos los valores de Y que corresponden a las diversas X serán igualmente confiables, 
si juzgamos la confiabilidad por la cercanía o el alejamiento con que se distribuyan los valores 
de Y alrededor de sus medias, es decir, los puntos sobre la FRP. Si, de hecho, éste es el caso, ¿no 
sería preferirible obtener muestras de las poblaciones Y más cercanas a su media que de las muy 
dispersas? Sin embargo, actuar así restringiría la variación que se obtiene mediante los valores 
de X. 

Al invocar el supuesto 4, se sostiene que en esta etapa todos los valores de Y correspondientes 
a diversos valores de X revisten la misma importancia. En el capítulo 11 veremos lo que sucede 
cuando se presenta heteroscedasticidad. 

Note que el supuesto 4 implica que las varianzas condicionales de Y; también son homosce- 
dásticas. Es decir, 


var (Y; |X) = 0? (3.2.4) 
Por supuesto, la varianza incondicional de Y es o}. Más adelante veremos la importancia de 


distinguir entre varianza condicional e incondicional de Y (en el apéndice A hay detalles de va- 
rianzas condicionales e incondicionales). 


SUPUESTO 5 


No hay autocorrelación entre las perturbaciones: Dados dos valores cualesquiera de X, 
Xiy X; (¡4 j), la correlación entre dos u; y uj cualesquiera (i + j) es cero. En pocas palabras, estas 
observaciones se muestrean de manera independiente. Simbólicamente, 


cov(u;, uj| X, Xp) =0 (3.2.5) 
cov(u;, uj) = 0, si X no es estocástica 


donde iy j son dos observaciones diferentes y cov significa covarianza. 


En palabras, (3.2.5) postula que las perturbaciones u; y uj no están correlacionadas. Técnica- 
mente, éste es el supuesto de no correlación serial, o no autocorrelación. Esto significa que, 
dado X;, las desviaciones de dos valores cualesquiera de Y de sus valores promedio no muestran 
patrones como los de la figura 3.6a) y b). En la figura 3.6a) se ve que las u están correlacionadas 
positivamente, pues a una u positiva sigue una u positiva, o a una u negativa sigue una u negativa. 
En la figura 3.6b), las u están correlacionadas negativamente, pues a una u positiva sigue una u 
negativa y viceversa. 

Si las perturbaciones (desviaciones) siguen patrones sistemáticos, como los que de las figu- 
ras 3.6a) y b), hay correlación serial o autocorrelación, y lo que requiere el supuesto 5 es que 
dichas correlaciones estén ausentes. La figura 3.6c) muestra que no hay un patrón sistemático 
para las u, lo que indica cero correlación. 


FIGURA 3.6 

Patrones de correlación 
entre las perturbaciones: 
a) correlación serial posi- 
tiva; b) correlación serial 
negativa; c) correlación 
cero. 
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Explicaremos con amplitud la importancia de este supuesto en el capítulo 12. No obstante, 
mediante la intuición, podemos analizar este supuesto de la siguiente forma. Supongamos que en 
la FRP (Y, = bı + B2X, + ui) u, y u,- | están correlacionadas positivamente. Entonces Y, depende 
no sólo de X, sino también de u,_¡, pues u;—ı determina en cierta medida a u,. En esta etapa del 
desarrollo de la materia, al invocar el supuesto 5, se afirma que se considerará el efecto sistemá- 
tico, si existe, de X, sobre Y,, sin preocuparse por las demás influencias que podrían actuar sobre 
Y como resultado de las posibles correlaciones entre las u. Pero, como se anota en el capítulo 12, 
veremos cómo incorporar en el análisis las correlaciones entre las perturbaciones, y sus conse- 
cuencias. 

No obstante, debe añadirse aquí que la justificación de este supuesto depende del tipo de 
datos para el análisis. Si los datos son transversales y se obtienen como muestra aleatoria 
de la población pertinente, a menudo es posible justificar este supuesto. Sin embargo, si los datos 
corresponden a una serie de tiempo, es difícil mantener el supuesto de independencia, porque las 
observaciones sucesivas de una serie de tiempo, como el PIB, están muy correlacionadas. Ana- 
lizaremos esta situación cuando estudiemos la econometría de series de tiempo, más adelante en 
este texto. 


SUPUESTO 6 


El número de observaciones n debe ser mayor que el número de parámetros por 
estimar: Sucesivamente, el número de observaciones n debe ser mayor que el número de 
variables explicativas. 
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Este supuesto no es tan ingenuo como parece. En el ejemplo hipotético de la tabla 3.1, imagi- 
nemos que sólo había el primer par de observaciones sobre Y y X (4 y 1). De esta sola observación 
no hay forma de estimar los dos parámetros desconocidos, 6 y 62. Se necesitan por lo menos 
dos pares de observaciones para estimar dichos parámetros. En un capítulo posterior veremos la 
importancia crítica de este supuesto. 


SUPUESTO 7 


La naturaleza de las variables X: No todos los valores X en una muestra determinada 
deben ser iguales. Técnicamente, var(X) debe ser un número positivo. Además, no puede haber 
valores atípicos de la variable X, es decir, valores muy grandes en relación con el resto de las 
observaciones. 


El supuesto de variabilidad en los valores de X tampoco es tan ingenuo como parece. Veamos 
la ecuación (3.1.6). Si todos los valores de X son idénticos, X; = X (¿por qué?) y el denominador 
de esa ecuación será cero, lo que imposibilita la estimación de £2 y, por consiguiente, de 61. 
Por intuición, pronto advertimos la razón por la que este supuesto es importante. Observe el 
ejemplo del consumo familiar del capítulo 2. Si hay muy poca variación en el ingreso familiar, 
no será posible explicar buena parte de la variación en el consumo. El lector debe recordar que la 
variación tanto en Y como en X es esencial para utilizar el análisis de regresión como herramienta 
de investigación. En pocas palabras, ¡las variables deben variar! 

El requisito de que no existan valores atípicos de X es para evitar que los resultados de la 
regresión estén dominados por tales valores atípicos. Si hay algunos valores de X que, por ejem- 
plo, sean 20 veces el promedio de los valores de X, las líneas de regresión estimadas con o sin 
dichas observaciones serían muy diferentes. Con mucha frecuencia, estos valores atípicos son el 
resultado de errores humanos de aritmética o de mezclar muestras de diferentes poblaciones. En 
el capítulo 13 estudiaremos a fondo este tema. 

El análisis de los supuestos en los que se basa el modelo clásico de regresión lineal ha finali- 
zado. Es importante señalar que todos estos supuestos sólo se refieren a la FRP y no a la FRM. 
Sin embargo, es interesante observar que el método de mínimos cuadrados que tratamos antes 
tiene algunas propiedades semejantes a los supuestos que acabamos de plantear sobre la FRP. 
Por ejemplo, la conclusión de que >" ù; = 0 y, por tanto, û = 0, es semejante al supuesto de 
que E(u;|X;) = 0. Asimismo, la conclusión de que >" ú;X; = 0 es similar al supuesto de que 
cov(u;, Xi) = 0. Es reconfortante observar que el método de mínimos cuadrados trata de “dupli- 
car” algunos de los supuestos impuestos a la FRP. 

Desde luego, la FRM no duplica todos los supuestos del MCRL. Como mostraremos más 
adelante, aunque cov(u; uj) = 0(1 Æ j) por el supuesto, no es válido que la covarianza muestral 
cov(û;, 1) = 0(1 4 j). De hecho, habremos de demostrar que los residuos no sólo están autoco- 
rrelacionados, sino que también son heteroscedásticos (véase el capítulo 12). 


Advertencia sobre estos supuestos 


La pregunta del millón de dólares es: ¿son realistas todos estos supuestos? La “realidad de los 
supuestos” se cuestiona desde hace muchos años en la filosofía de las ciencias. Algunos ar- 
gumentan que no importa si los supuestos son realistas, sino las predicciones basadas en esos 
supuestos. Entre quienes apoyan la “tesis de la irrelevancia de los supuestos” sobresale Milton 
Friedman. Para él, la irrealidad de los supuestos es una ventaja positiva: “para que una hipótesis 
sea importante... debe ser descriptivamente falsa en sus supuestos”.!* 

Es posible coincidir o no completamente con este punto de vista, pero recuerde que en cual- 
quier estudio científico se plantean ciertos supuestos porque facilitan el desarrollo de la materia 
en pasos graduales, no porque sean necesariamente realistas en el sentido de que reproduzcan la 


13 Milton Friedman, Essays in Positive Economics, University of Chicago Press, Chicago, 1953, p. 14. 
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realidad exactamente. Como señala un autor, “... si la simplicidad es un criterio deseable de una 
buena teoría, todas las buenas teorías Keza y simplifican de manera exagerada”.!* 

El plan es estudiar primero a fondo las propiedades del MCRL y, luego, en capítulos posterio- 
res, examinar a profundidad lo que sucede si no se cumple uno o más de los supuestos del MCRL. 
Al final de este capítulo, en la tabla 3.4, se ofrece una guía para enterarse de lo que sucede al 
MCRL si no se satisface un supuesto particular. 

Como señalaba un colega, al revisar investigaciones ajenas, es necesario considerar si los 
supuestos del investigador son apropiados para los datos y para el problema. Con mucha fre- 
cuencia, la investigación publicada se basa en supuestos implícitos sobre el problema y en datos 
que tal vez no son correctos y producen estimaciones basadas en esos supuestos. Desde luego, 
el lector conocedor, consciente de estos problemas, debe adoptar una actitud escéptica hacia la 
investigación. Los supuestos enumerados en la tabla 3.4, por consiguiente, constituyen una lista 
de verificación para guiar la investigación y evaluar las investigaciones ajenas. 

Con esta salvedad, ahora está listo para estudiar el MCRL. En particular, se desea encontrar 
las propiedades estadísticas de MCO comparadas con las propiedades numéricas puras ex- 
puestas antes. Las propiedades estadísticas de MCO se basan en los supuestos del MCRL ya es- 
tudiado, y están avaladas por el famoso teorema de Gauss-Markov. Pero antes de este teorema, 
que proporciona justificación teórica para la popularidad de MCO, se necesita considerar primero 
la precisión o los errores estándar de los estimados por mínimos cuadrados. 


3.3 Precisión o errores estándar de las estimaciones 
de mínimos cuadrados 


De las ecuaciones (3.1.6) y (3.1.7) es evidente que las estimaciones de mínimos cuadrados son 
función de los datos muestrales. Pero, como es probable que los datos cambien entre una muestra 
y otra, los valores estimados cambiarán ipso facto. Por consiguiente, se requiere alguna medida 
de “confiabilidad” o precisión de los estimadores Br y $». En estadística, la precisión de un valor 
estimado se mide por su error estándar (ee).!? Dados los supuestos gaussianos, en el apéndice 3A, 
sección 3A.3, se muestra que los errores estándar de las estimaciones de MCO pueden obtenerse 
de la siguiente manera: 


var(B,) = E (3.3.1) 
ee(B2) = —= (3.3.2) 
E 
2 
var (ĝi) = =— 0? (3.3.3) 
2 
ee (ĝi) = 2% o (3.3.4) 


He 


14 Mark Blaug, The Methodology of Economics: Or How Economists Explain, 2a. ed., Cambridge University 
Press, Nueva York, 1992, p. 92. 

15 El error estándar no es otra cosa que la desviación estándar de la distribución muestral del estimador, 

y la distribución muestral de un estimador es tan sólo una probabilidad o distribución de frecuencias del 
estimador, es decir, una distribución del conjunto de valores del estimador obtenidos de todas las muestras 
posibles de igual tamaño de una población dada. Con las distribuciones muestrales se infieren los valores de 
los parámetros de la población, con base en los valores de los estimadores calculados a partir de una o más 
muestras (véanse detalles en el apéndice A). 
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donde var = varianza, ee = error estándar y o? es la constante o varianza homoscedástica de u; 
del supuesto 4. 


Todas las cantidades que entran en las anteriores ecuaciones, excepto o°, pueden estimarse 
2 


a partir de los datos. Como se muestra en el apéndice 3A, sección 3A.5, la misma o^ se estima 
mediante la fórmula: 
n2 
6? = 2 (3.3.5) 
n—2 


donde 6? es el estimador de MCO de la verdadera pero desconocida o° , y donde la expresión 
n — 2 es conocida como el número de grados de libertad (gl), con Y ù? como la suma de los 
valores residuales al cuadrado o la suma de cuadrados de los residuos (SCR).'? 

Una vez conocida J` ù+, 6? se calcula con facilidad. Y” ù? se obtiene de (3.1.2) o de la si- 
guiente expresión (véase la demostración en la sección 3.5): 


D oa (3.3.6) 


En comparación con la ecuación (3.1.2), es fácil emplear la ecuación (3.3.6), pues no requiere 
calcular ù; por cada observación, a pesar de la utilidad esencial de tal cálculo (como veremos en 
los capítulos 11 y 12). 

Como 


Ê — Y xyi 
e 


otra expresión para calcular X` 2? es 


2 
Y= x- (Zra (3.3.7) 


Por cierto, note que la raíz cuadrada positiva de 6? 


(3.3.8) 


se conoce como el error estándar de estimación o el error estándar de la regresión (ee). No 
es más que la desviación estándar de los valores Y alrededor de la línea de regresión estimada, 
la cual suele servir como medida para resumir la “bondad del ajuste” de dicha línea, tema que 
analizaremos en la sección 3.5. 

Antes mencionamos que, dado X;, o? representa la varianza (condicional) de u; y Y;. Por tanto, 
el error estándar de la estimación también se denomina desviación estándar (condicional) de u; 
y Y, Sin duda, como es común, o; y oy representan la varianza incondicional y la desviación 
estándar incondicional de Y, respectivamente. 


16 El término número de grados de libertad significa el número total de observaciones en la muestra 

(= n) menos el número de restricciones (lineales) independientes o de restricciones que se les impusieron. 
En otras palabras, es la cantidad de observaciones independientes de un total de n observaciones. Por ejem- 
plo, para calcular la SCR (3.1.2), es necesario obtener antes $1 y fz. Por consiguiente, estas dos estimaciones 
imponen dos restricciones a la SCR. Son, entonces, n — 2 las observaciones independientes, y no n, para 
calcular la SCR. Según esta lógica, en la regresión con tres variables SCR tendrá n — 3 gl, y para el modelo de 
k variables tendrá n — k gl. La regla general es la siguiente: gl = (n — número de parámetros estimados). 
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Observe las siguientes características de las varianzas (y por consiguiente, de los errores es- 
tándar) de 1 y £2. Ñ 

l. a varianza de Ba es directamente proporcional a o? pero inversamente proporcional 
a . Es decir, dada o”, entre más grande sea la variación en los valores X, menor será la e 
rianza de B, y, por tanto, mayor será la precisión con la cual estimar £2. En resumen, dada o° si 
hay una variación sustancial en los valores de X, 2 se mide en forma más precisa que cuando 
las X; no varían sustancialmente. También, dado ` $e entre mayor sea la varianza de o’, mayor 
será la de 62. Advierta que a medida que aumenta el tamaño n de la muestra, lo hace también el 
número de términos en la suma, X` x?. A medida que aumenta n, también es mayor la precisión 
para estimar £2. (¿Por qué?) 

2. La Varte de Bi es directamente proporcional a o? y a LY, pero inversamente propor- 
cional a }` x? y al tamaño n de la muestra. 

3. Como 6 y f2 son estimadores, no sólo variarán de una muestra a otra, sino también, en 
una muestra dada, es probable que dependan entre sí; esta dependencia se mide por la covarianza 
entre ellos. En el apéndice 3A, sección 3A.4, se muestra que: 


cov (ĝi, B2) = —X var(f,) 


do (3.3.9) 
E (5) 


Como var(B)) es siempre positiva, al igual que la varianza de cualquier variable, la naturaleza 
de la covarianza entre $, y $, depende del signo de X. Si X es positiva, entonces, como indica 
la fórmula, la covarianza será negativa. Así, si el coeficiente de la pendiente £z está sobrestima- 
do (es decir, la pendiente es muy pronunciada), el coeficiente del intercepto £; estará subesti- 
mado (es decir, el intercepto será muy pequeño). Más adelante (sobre todo en el capítulo 10, 
sobre multicolinealidad), veremos la utilidad de estudiar las covarianzas entre los coeficientes 
estimados de regresión. 

¿Cómo permiten las varianzas y los errores estándar de los coeficientes estimados de regre- 
sión evaluar la confiabilidad de estos valores estimados? Éste es un problema de la inferencia 
estadística, y lo trataremos en los capítulos 4 y 5. 


3.4 Propiedades de los estimadores de mínimos cuadrados: 
teorema de Gauss-Markov!* 


Como ya mencionamos, dados los supuestos del modelo clásico de regresión lineal, las estima- 
ciones de mínimos cuadrados poseen algunas propiedades ideales u óptimas, las cuales están 
contenidas en el famoso teorema de Gauss-Markov. Para entender este teorema necesitamos con- 
siderar la propiedad del mejor estimador lineal insesgado.'% Como se explica en el apéndice 
A, se dice que un estimador, por ejemplo, el estimador de MCO Ê», es el mejor estimador lineal 
insesgado (MELI) de $2 si se cumple lo siguiente: 


1. Es lineal, es decir, función lineal de una variable aleatoria, como la variable dependiente Y en 
el modelo de regresión. 


17 Aunque se conoce teorema de Gauss-Markov, el método de Gauss de mínimos cuadrados antecede (1821) 
al de Markov de varianza mínima (1900). 

18 Consulte el apéndice A, donde se explica la importancia de los estimadores lineales y se presenta un 
análisis general sobre las propiedades deseables de los estimadores estadísticos. 
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2. Es insesgado, es decir, su valor promedio o esperado, E(62), es igual al valor verdadero, Bs. 
3. Tiene varianza mínima dentro de la clase de todos los estimadores lineales insesgados; un 
estimador insesgado con varianza mínima se conoce como estimador eficiente. 


En el contexto de regresión puede probarse que los estimadores de MCO son MELI. Ésta es la 
clave del famoso teorema de Gauss-Markov, el cual se puede enunciar de la siguiente forma: 


Teorema de 
Gauss-Markov 


Dados los supuestos del modelo clásico de regresión lineal, los estimadores de mínimos cua- 
drados, dentro de la clase de estimadores lineales insesgados, tienen varianza mínima, es decir, 
son MELI. 


FIGURA 3.7 
Distribución muestral del 
estimador de MCO Ê, y 
el estimador alterno 83. 


La prueba de este teorema se presenta en el apéndice 3A, sección 3A.6. Conforme avance- 
mos, percibirá con mayor claridad la trascendencia del teorema de Gauss-Markov. Es suficiente 
anotar aquí que el teorema tiene importancia teórica y práctica a la vez.!” 

Lo que todo esto significa se comprende con ayuda de la figura 3.7. 

En la figura 3.7a se presenta la distribución muestral del estimador de MCO Ba, es decir, 
la distribución de los valores asumidos por Ê en experimentos repetidos de muestreo (véase la 


=> b2 
E(B) = p2 
a) Distribución muestral de $, 
7 pà 
E(B>) = Ba 
b) Distribución muestral de $3 
= bob 


A 


c) Distribución muestral de $, y p3 


12 Por ejemplo, puede demostrarse que cualquier combinación lineal de las £, (81 — 282), puede estimarse 
por (B1 - 282), y este estimador es MELI. Para más detalles, véase Henri Theil, Introduction to Econometrics, 
Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1978, pp. 401-402. Una observación sobre un asunto técnico 
del teorema de Gauss-Markov: sólo establece la condición suficiente (pero no la necesaria) para que los 
MCO sean eficientes. El autor está en deuda con Michael McAleer, de la Universidad de Western Australia, 
por hacerle notar este punto. 
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tabla 3.1). Por conveniencia, supusimos que Ê» está distribuido simétricamente (en el capítulo 4 
abundaremos al respecto). Como indica la figura, la media de los valores Êz, E(B»), es igual al 
verdadero ß2. En esta situación se dice que Ê» es un estimador insesgado de b2. En la figura 3.7b) 
se aprecia la distribución muestral de $63, estimador alterno de $, obtenido con otro método (es 
decir, diferente al de MCO). Por conveniencia, suponga que $3, al igual que Ê», es insesgado, 
es decir, que su valor promedio o esperado es igual a 62. Supongamos además que Ê- y 6 
son estimadores lineales, es decir, funciones lineales de Y. ¿Cuál estimador escogería, Bb» o 3? 

Para responder, sobreponga las dos figuras, como en la figura 3.7c). Es obvio que si bien Ê 
y B3 son insesgados, la distribución de £ž está más difusa o dispersa alrededor del valor de la 
media que la distribución de Êz. En otras palabras, la varianza de $3 es mayor que la varianza de 
Bb». Ahora, dados dos estimadores a la vez lineales e insesgados, sería preferible el estimador con 
la menor varianza, porque es probable que esté más cercano a Bf», que el estimador alterno. En 
resumen, se escogería el estimador MELI. 

El teorema de Gauss-Markov es notable, pues no hace ninguna suposición respecto de la 
distribución de probabilidad de la variable aleatoria u;, y por consiguiente, tampoco respecto de 
Y; (en el siguiente capítulo abordaremos esta cuestión). En la medida en que se satisfagan los 
supuestos del MCRL, el teorema será válido. Como resultado, no se necesita buscar otro esti- 
mador insesgado lineal, pues no habrá otro estimador cuya varianza sea más pequeña que la del 
estimador de MCO. Por supuesto, si no se cumple una o más de tales suposiciones, el teorema ya 
no es válido. Por ejemplo, si consideramos los modelos de regresión no lineales en los paráme- 
tros (que analizaremos en el capítulo 14), quizá se obtendrían estimadores que funcionen mejor 
que los estimadores de MCO. Asimismo, como veremos en el capítulo sobre heteroscedasticidad, 
si no se cumple el supuesto sobre la varianza homoscedástica, los estimadores de MCO (aunque 
sean insesgados y consistentes) ya no son los estimadores de varianza mínima, incluso dentro de 
la clase de los estimadores lineales. 

Las propiedades estadísticas que acabamos de exponer se conocen como propiedades de 
muestras finitas: estas propiedades se mantienen sin importar el tamaño de la muestra en que se 
basen los estimadores. Más adelante tendremos ocasión de considerar las propiedades asintóti- 
cas, es decir, propiedades válidas sólo si el tamaño de la muestra es muy grande (técnicamente 
hablando, infinito). En el apéndice A se presenta un análisis general de las propiedades de los 
estimadores con muestras finitas y muestras grandes. 


3.5 Coeficiente de determinación r°: una medida de 
la “bondad del ajuste” 


Hasta el momento, nuestro análisis se centró en el problema de estimar los coeficientes de re- 
gresión, sus errores estándar y algunas de sus propiedades. Veremos ahora la bondad del ajuste 
de la línea de regresión a un conjunto de datos; es decir, veremos cuán “bien” se ajusta la línea de 
regresión a los datos. De la figura 3.1, es claro que si todas las observaciones cayesen en la línea 
de regresión, obtendríamos un ajuste “perfecto”, pero rara vez se presenta este caso. Por lo gene- 
ral hay algunas ú; positivas y algunas ù; negativas. Se tiene la esperanza de que estos residuos al- 
rededor de la línea de regresión sean lo más pequeños posibles. El coeficiente de determinación 
r? (caso de dos variables) o R? (regresión múltiple) es una medida comprendida que dice cuán 
bien se ajusta la línea de regresión muestral a los datos. 

Antes de mostrar cómo calcular r?°, consideremos una explicación heurística de r? en términos 
de una herramienta gráfica, conocida como el diagrama de Venn o de Ballentine, que aparece 
en la figura 3.8.2 


20 Véase Peter Kennedy, “Ballentine: A Graphical Aid for Econometrics”, Australian Economics Papers, vol. 20, 
1981, pp. 414-416. El nombre Ballentine se deriva del emblema de la conocida cerveza Ballantine con sus 
círculos. 
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FIGURA 3.8 
Visión de Ballentine de 
ra) =0; f) =l. 


b) c) 
Y X 3 
) f) 


a) 


d) e 


En esta figura, el circulo Y representa la variación en la variable dependiente Y, y el círculo 
X, la variación en la variable explicativa X.?! La intersección de los dos círculos (el área som- 
breada) indica la medida en la cual la variación en Y se explica por la variación en X (por ejemplo, 
mediante una regresión de MCO). Entre mayor sea la medida de la intersección, mayor será la 
variación en Y que se explica por X. r? es tan sólo una medida numérica de esta intersección. 
En la figura, a medida que se va de izquierda a derecha, el área de la intersección aumenta, es 
decir, sucesivamente hay una proporción cada vez mayor de la variación en Y que se explica por 
X. En resumen, r° aumenta. Cuando no hay intersección, obviamente r? es cero, pero cuando la 
intersección es completa, r? es 1, pues ciento por ciento de la variación en Y se explica por X. 
Como mostraremos en breve, r? se encuentra entre 0 y 1. 

Para calcular r? se procede de la siguiente forma: recuerde que 


Y, =Y +4; (2.6.3) 
o, expresado en forma de desviación, 


Yi = Îi +4 (3.5.1) 


donde se emplean (3.1.13) y (3.1.14). Al elevar al cuadrado (3.5.1) en ambos lados y sumar sobre 
la muestra, obtenemos 


=D a 
= Dr 4 DY (3.5.2) 
=} +} â; 


pues > $01; = 0 (¿por qué?) y ĵi = ĝ2x;. 

Las diversas sumas de cuadrados en (3.5.2) se describen de la siguiente manera: > y? = 
(Y — Y)? = variación total de los valores reales de Y respecto de su media muestral, que 
puede denominarse la suma de cuadrados total (SCT). Y 2 = NY, - Y = Y %, — Y? = 
$2 Y x? = variación de los valores de Y estimados alrededor de su media (Y = Y), que apro- 
piadamente puede llamarse la suma de cuadrados debida a la regresión [es decir, debida a la(s) 
variable(s) explicativa(s)], o explicada por ésta, o simplemente la suma de cuadrados explicada 


21 Los términos variación y varianza son diferentes. Variación significa la suma de los cuadrados de las desvia- 
ciones de una variable respecto del valor de su media. Varianza es la suma de los cuadrados dividida por los 
grados de libertad apropiados. En resumen, varianza = variación/gl. 


FIGURA 3.9 
Partición de la variación 
de Y; en dos componentes. 
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ú; = debido al residuo 


(%,-Y) = total 34 Yi 


(Y, Y) = debido a la regresión 


(SCE). >” ù? = la variación residual o no explicada de los valores de Y alrededor de la línea de 
regresión, o sólo la suma de cuadrados de los residuos (SCR). Así, (3.5.2) es 


SCT = SCE + SCR (3.5.3) 


y muestra que la variación total en los valores Y observados alrededor del valor de su media 
puede dividirse en dos partes, una atribuible a la línea de regresión y la otra a fuerzas aleato- 
rias, pues no todas las observaciones Y caen sobre la línea ajustada. Geométricamente, tenemos 
la figura 3.9. 

Ahora, al dividir la ecuación (3.5.3) entre la SCT en ambos lados, se obtiene 


_ SCE de SCR 
SCT SCT EA 
EG, Ya ¡dit 
EG- E -Ý 
Ahora, definimos r? como 
a Do 3.5.5) 
— EQ -Ë SCT 
o también como 
2 De 
r = 5 i oo 
DOR =F (3.5.5a) 
_ 1 _SCR 
SCT 


La cantidad r? así definida se conoce como coeficiente de determinación (muestral), y es la 
medida más común de la bondad del ajuste de una línea de regresión. Verbalmente, r? mide la 
proporción o el porcentaje de la variación total en Y explicada por el modelo de regresión. 
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Pueden observarse dos propiedades de r?: 
1. Es una cantidad no negativa. (¿Por qué?) 


2. Sus límites son 0 < r? < 1. Un r? de 1 significa un ajuste perfecto, es decir, Î =Y, por cada 
i. Por otra parte, un r? de cero significa que no hay relación alguna entre la variable regresada y la 
variable regresora (es decir, 2 = 0). En este caso, como indica (3.1.9), Y; = 61 = Y, es decir, 
la mejor predicción de cualquier valor de Y es simplemente el valor de su media. En esta situa- 
ción, por consiguiente, la línea de regresión será horizontal al eje X. 


A pesar de que r? puede calcularse directamente a partir de su definición en (3.5.5), su valor 
se obtiene más rápido con la siguiente fórmula: 


Bn (3.5.6) 


Si dividimos el numerador y el denominador de (3.5.6) por el tamaño n de la muestra (on — 1, si 
la muestra es pequeña), obtenemos: 


S 
r?= a(S) (3.5.7) 


donde S? y S? son las varianzas muestrales de Y y X, respectivamente. 
Como f2 = Y xi yi J. Y x?, la ecuación (3.5.6) también se expresa como 


2 (Exin) 


E AIRES 3.5.8 
RDA pas 


expresión fácil de calcular. 
Con la definición de r?, SCE y SCR, explicadas antes, se expresan de la siguiente forma: 


SCE = r? . SCT 
= r? yy 
SCR = SCT — SCE 
= SCT(1— SCE/SCT) (3.5.10) 


=J x =r) 


(3.5.9) 


Por consiguiente, escribimos 


SCT = SCE+ SCR 


3.5.11 
Dr- Dro DN ii 


expresión que nos será muy útil más adelante. 
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Una cantidad estrechamente relacionada con r? pero conceptualmente muy diferente es el 
coeficiente de correlación, el cual, como mencionamos en el capítulo 1, es una medida del grado 
de asociación entre dos variables. Se calcula a partir de 


r=x+vr? (3.5.12) 


o de su definición 


Y xiyi 
LA) 
s NX INE 
e eo a 


r= 


(3.5.13) 


que se conoce como coeficiente de correlación muestral.?? 
Algunas propiedades de r son las siguientes (véase la figura 3.10): 


1. Puede tener signo positivo o negativo, según el signo del término en el numerador de 
(3.5.13), el cual mide la covariación muestral de dos variables. 


2. Cae entre los límites de —1 y +1; es decir, —1 < r < 1. 


3. Es simétrico por naturaleza; es decir, el coeficiente de correlación entre X y Y (rxy) es el 
mismo que entre Y y X (ryx). 


4. Es independiente del origen y de la escala; es decir, si definimos X¥ = aX; +C y 
Y = bY; + d, donde a > 0, b > 0, y c y d son constantes, entonces r entre X* y Y* es igual a r 
entre las variables originales X y Y. 


5. Si X y Y son estadísticamente independientes (véase la definición en el apéndice A), el 
coeficiente de correlación entre ellas es cero; pero si r = 0, esto no significa que las dos variables 
sean independientes. En otras palabras, una correlación igual a cero no necesariamente im- 
plica independencia. [Véase la figura 3.10/).] 


6. Es una medida de asociación lineal o dependencia lineal solamente; su uso en la descrip- 
ción de relaciones no lineales no tiene significado. Así, en la figura 3.104), Y = X? es una relación 
exacta y a pesar de ello r es cero. (¿Por qué?) 


7. Aunque es una medida de asociación lineal entre dos variables, esto no implica necesaria- 
mente alguna relación causa-efecto, como mencionamos en el capítulo 1. 


En el contexto de la regresión, r? es una medida con más significado que r, pues la primera 


indica la proporción de la variación en la variable dependiente explicada por la(s) variable(s) 
explicativa(s) y, por consiguiente, constituye una medida global del grado en que la variación 
en una variable determina la variación en la otra. La segunda no tiene tal valor. Además, como 
veremos, la interpretación de r (= R) en un modelo de regresión múltiple es de valor dudoso. Sin 
embargo, tendremos más que decir sobre r? en el capítulo 7. 

Observe que la r? definida antes también puede calcularse como el coeficiente de correla- 
ción entre la Y; real y la Y; estimada, a saber, Ye elevado al cuadrado. Es decir, con (3.5.13), se 
escribe 


MA 


DL 


22 El coeficiente de correlación poblacional, denotado por p, se define en el apéndice A. 


23 En el proceso de creación de modelos de regresión, la teoría indicará la dirección de causalidad entre Y y 
X, la cual, en el contexto de los modelos uniecuacionales, suele presentarse de X a Y. 
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FIGURA 3.10 
Patrones de correlación 
(adaptado de Henri Theil, 
Introduction to Econo- 
metrics, Prentice-Hall, 
Englewood Cliffs, Nueva 
Jersey, 1978, p. 86). 
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© Yi y 
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IIS) 


donde Y; = Y real, Y, = Y estimada y Y = Y = media de Y. Para la prueba, consulte el ejercicio 
3.15. La expresión (3.5.14) justifica la descripción de r? como medida de la bondad del ajuste, 
pues señala qué tan cerca están los valores de Y estimados de sus valores observados. 


3.6 Ejemplo numérico 


Para ilustrar la teoría econométrica hasta el momento, consideraremos los datos de la tabla 2.6, 
que relacionan el salario promedio por hora (Y) y los años de escolaridad (X). La economía 
laboral básica indica que, entre muchas variables, la escolaridad es un determinante importante 


de los salarios. 


En la tabla 3.2 se proporcionan los datos primarios que se necesitan para estimar el efecto 
cuantitativo de la escolaridad en los salarios. 
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TABLA 3.2 ; 
Datos primarios basados Obs Y X AS y xi YiXi 
en la tabla 2.6 1 4.4567 6 —6 -4.218 36 25.308 
2 5.77 7 -5 2.9047 25 14.5235 
3 5.9787 8 -4 2.696 16 10.784 
4 7.3317 9 -3 -1.343 9 4.029 
5 7.3182 10 -2 -1.3565 4 2.713 
6 6.5844 11 -1 -2.0903 1 2.0903 
7 7.8182 12 (0) —0.8565 0 0 
8 7.8351 13 1 0.8396 1 0.8396 
9 11.0223 14 2 2.3476 4 4.6952 
10 10.6738 15 3 1.9991 9 5.9973 
11 10.8361 16 4 2.1614 16 8.6456 
12 13.615 17 5 4.9403 25 24.7015 
13 13.531 18 6 4.8563 36 29.1378 
Suma 112.7712 156 0 0 182 131.7856 
Obs Xe Y? Y, ú¡= Y¡—Y úl 
1 36 19.86217 4.165294 0.291406 0.084917 
2 49 33.2929 4.916863 0.853137 0.727843 
3 64 35.74485 5.668432 0.310268 0.096266 
4 81 53.75382 6.420001 0.911699 0.831195 
5 100 53.55605 7.17157 0.14663 0.0215 
6 121 43.35432 7.923139 -1.33874 1.792222 
7 144 61.12425 8.674708 -0.85651 0.733606 
8 169 61.38879 9.426277 -1.59118 2.531844 
9 196 121.4911 10.17785 0.844454 0.713103 
10 225 113.93 10.92941 -0.25562 0.065339 
11 256 117.4211 11.68098 -0.84488 0.713829 
12 289 185.3682 12.43255 1.182447 1.398181 
13 324 183.088 13.18412 0.346878 0.120324 
Suma 2 054 1 083.376 112.7712 =0 9.83017 
Nota 


x1=X Xy =Y =Y 


a  YEyixi 131.7856 
b= =z F = 0.7240967 
Ex; 182.0 


Êi = Y — ĝ2X = 8.674708 — 0.7240967x12 = —0.01445 


„> Eû? 983017 


= 0.893652; 6 = 0.945332 


n=2 ll 
a 5? 0.893652 a 
var(B,) = L z= = 0.004910; ee(ĝ2) = 0.00490 = 0.070072 
Exi 182.0 
ER? 9.83017 
sl Sio gei = 0.9065 
NY — Y? 105.1188 
r = wr? = 0.9521 
4 yx? 2 054 
var(B1) = L= = 0.868132; 
nEx?  13(182) 


ee(ĝ1) = y 0.868132 = 0.9317359 
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FIGURA 3.11 

Línea de regresión esti- 
mada para los datos de 
salarios y escolaridad de 
la tabla 2.6. 
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Con los datos presentados en esta tabla, la línea de regresión estimada se obtiene como 
sigue: 


Y, = —0.0144 + 0.7240X; (3.6.1) 


Geométricamente, la línea de regresión estimada se muestra en la figura 3.11. 

Como sabemos, cada punto de la línea de regresión da una estimación del valor medio de Y 
que corresponde al valor seleccionado de X; es decir, Y, es una estimación de E(Y | Xi). El valor 
de 2 = 0.7240, que mide la pendiente de la línea, indica que, dentro del intervalo muestral de 
X entre 6 y 18 años de escolaridad, a medida que el valor de X aumenta 1 dólar, el incremento 
estimado en el salario promedio por hora es cercano a 72 centavos de dólar. Es decir, cada año 
adicional de escolaridad, en promedio, produce aumentos en los salarios por hora de alrededor 
de 72 centavos de dólar. 

El valor de B 1 = —0.0144, que es el intercepto de la línea, indica el nivel promedio de los sala- 
rios cuando el nivel de escolaridad es cero. Esta interpretación literal del intercepto en el presente 
caso no tiene sentido. ¿Cómo podría haber salarios negativos? Como veremos a lo largo de este 
libro, ocurre con mucha frecuencia que el término del intercepto no tiene un significado viable ni 
práctico. Además, en la muestra no se contempla el nivel cero de escolaridad. Como veremos en 
el capítulo 5, el valor observado del intercepto no es estadísticamente diferente de cero. 

El valor de r? cercano a 0.90 indica que el nivel de escolaridad explica alrededor de 90% de la 
variación del salario por hora. Si consideramos que r? puede tener un valor máximo de 1, la línea 
de regresión se ajusta muy bien a los datos. El coeficiente de correlación, r = 0.9521, muestra 
que los salarios y la escolaridad tienen una alta correlación positiva. 

Antes de dejar este ejemplo, observe que el modelo es muy sencillo. La teoría económica la- 
boral indica que, aparte de la escolaridad, las variables como género, raza, ubicación, sindicatos 
e idioma son también factores importantes en la determinación de los salarios por hora. Des- 
pués de estudiar la regresión múltiple en los capítulos 7 y 8, consideraremos un modelo más 
amplio de determinación de los salarios. 
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3.7 Ejemplos ilustrativos 


EJEMPLO 3.1 
Relación consumo- 


ingreso en Estados 
Unidos, 1960-2005 


Retomemos los datos sobre ingreso y consumo de la tabla 1.1, en la Introducción. Ya presenta- 
mos estos datos en la figura 1.3, junto con la línea de regresión estimada en la ecuación (1.3.3). 
Ahora proporcionamos los resultados subyacentes de la regresión de MCO que se obtuvieron 
con Eviews 6. Observe que Y = gasto de consumo personal (GCP) y X = producto interno bruto 
(PIB), ambos en miles de millones de dólares de 2000. En este ejemplo, los datos son de series 
de tiempo. 


Y, = -299.5913 + 0.7218X; (3.7.1) 


var ($1) = 827.4195  ee(f1) = 28.7649 
var ($2) = 0.0000195 ee (ĝ2) = 0.004423 
12=0.9983 6? = 73.56689 


La ecuación (3.7.1) es la función de consumo agregada keynesiana (es decir, para la economía en 
su conjunto). Como muestra esta ecuación, la propensión marginal a consumir (PMC) es de 
cerca de 0.72, lo que indica que si el ingreso real se incrementa un dólar, el gasto promedio 
de consumo personal aumenta casi 72 centavos. Según la teoría keynesiana, se espera que la 
PMC se sitúe entre 0 y 1. 

El valor del intercepto en este ejemplo es negativo y no tiene ninguna interpretación econó- 
mica viable. De manera textual, significa que si el valor del PIB fuera cero, el nivel promedio del 
consumo personal sería un valor negativo de alrededor de 299 000 millones de dólares. 

El valor de r? de 0.9983 significa que más o menos 99% de la variación en el consumo perso- 
nal se explica por la variación en el PIB. Este valor es muy alto, si se considera que r? puede valer 
cuando mucho 1. Como veremos a lo largo de esta obra, en las regresiones basadas en datos 
de series de tiempo por lo general se obtienen valores altos de r°. Explicaremos las razones de 
este fenómeno en el capítulo que trata sobre la autocorrelación, y también en el capítulo sobre 
econometría de series de tiempo. 


EJEMPLO 3.2 
Gasto alimentario 
en India 


Consulte los datos de la tabla 2.8 del ejercicio 2.15. Los datos se refieren a una muestra de 55 
familias rurales de India. La variable dependiente (regresada) en este ejemplo es el gasto en 
alimentos y la independiente (regresora) es el gasto total, una aproximación del ingreso (ambas 
cifras se dan en rupias). Los datos de este ejemplo son, por tanto, transversales. 

Con base en los datos proporcionados, obtenemos la siguiente regresión: 


GasAl; = 94.2087 + 0.4368 GasTot; (3.7.2) 
var (Êi) = 2 560.9401 ee(ĝ1) = 50.8563 
var (Ê2) = 0.0061 ee($2) = 0.0783 
r? = 0.3698 5? = 4 469.6913 


En la ecuación (3.7.2) se observa que si el gasto total se incrementa una rupia, en promedio, el 
gasto en alimentos aumenta casi 44 paisas (1 rupia = 100 paisas). Si el gasto total fuera nulo 
(cero), el gasto promedio en alimentos sería de más o menos 94 rupias. De nuevo, tal inter- 
pretación mecánica del intercepto no tendría ningún sentido. Sin embargo, en este ejemplo se 
puede argumentar que aunque el gasto total fuera nulo (por ejemplo, debido a la pérdida del 
trabajo), la gente podría mantener un nivel mínimo de gasto en comida si pide dinero prestado 
o recurre a sus ahorros. 

El valor de r? de casi 0.37 significa que sólo 37% de la variación en el gasto alimentario se 
explica por el gasto total. Esto puede parecer un valor más bien bajo, pero, como veremos des- 
pués, en los datos transversales suelen obtenerse valores bajos de r?, quizá debido a la diversidad 
de unidades de la muestra. Analizaremos este tema en el capítulo sobre heteroscedasticidad 
(véase el capítulo 11). 
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EJEMPLO 3.3 La tabla 3.3 presenta datos sobre el número de suscriptores de teléfonos celulares y el número 
Demanda de telé- de computadoras personales (PC), ambos por cada 100 personas, y el ingreso per cápita ajus- 
tado por el poder adquisitivo en dólares para una muestra de 34 países. Por tanto, se trata de 
Jonos celulares y datos transversales. Estos datos corresponden a 2003 y se obtuvieron del Statistical Abstract of 
computadoras per- the United States, 2006. 
sonales en relación Aunque los teléfonos celulares y las computadoras personales son muy comunes en Estados 
con el ingreso per Unidos, no ocurre lo mismo en muchos países. Para ver si el ingreso per cápita es un factor que 
influye en el uso de teléfonos celulares y PC, se regresó cada uno de estos medios de comunica- 


capita ción sobre el ingreso per cápita con la muestra de 34 países. Los resultados son los siguientes: 
TABLA 3.3 
Número de suscrip- Teléfono Ingreso per cápita 
tores de teléfonos ce- País celular PC (EU$) 
lulares por cada cien Alemania 78.52 48.47 27 610 
personas y número de Arabia Saudita 32.11 13.67 13 230 
computadoras perso- Argentina 17.76 8.2 11 410 
nales por cada cien Australia 71.95 60.18 28 780 
personas e ingreso per Bélgica 79.28 31.81 28 920 
cápita en países selec- Brasil 26.36 7.48 7 510 
cionados, correspon- Bulgaria 46.64 5.19 75.4 
dientes a 2003 Canadá 41.9 48.7 30 040 
Fuente: Statistical Abstract of China 21.48 2.76 4 980 
the United States, 2006, tabla Colombia 14.13 4.93 6410 
1364 para los datos sobre Ecuador 18.92 3.24 3 940 
teléfonos celulares y computa- Egipto 8.45 2.91 3 940 
o España 91.61 19.6 22150 
a Estados Unidos 54.58 40.57 37 750 
Francia 69.59 34.71 27 640 
Grecia 90.23 8.17 19 900 
Guatemala 13.15 1.44 4 090 
Hungría 76.88 10.84 13 840 
India 2.47 0.72 2 880 
Indonesia 8.74 1.19 3210 
Italia 101.76 23.07 26 830 
Japón 67.9 38.22 28 450 
México 29.47 8.3 8 980 
Países Bajos 76.76 46.66 28 560 
Pakistán 1.75 0.42 2 040 
Polonia 45.09 14.2 11210 
Reino Unido 91.17 40.57 27 690 
República Checa 96.46 17.74 15 600 
Rusia 24.93 8.87 8 950 
Sudáfrica 36.36 7.26 10130 
Suecia 98.05 62.13 26710 
Suiza 84.34 70.87 32 220 
Tailandia 39.42 3.98 7 450 
Venezuela 27.3 6.09 4 750 


Nota: Los datos sobre teléfonos celulares y computadoras personales son por cada 100 personas. 
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Demanda de teléfonos celulares. Sea Y = número de suscriptores de teléfonos celulares y 
X = ingreso per cápita ajustado por poder adquisitivo. Con esta base se obtuvo la siguiente 


regresión. 
Y; = 14.4773 + 0.0022X; (3.7.3) 
ee(B1) = 6.1523; ee(ĝ2) = 0.00032 
r?= 0.6023 


El coeficiente de pendiente indica que si el ingreso per cápita aumenta, por ejemplo, 1 000 dó- 
lares en promedio, el número de suscriptores de teléfonos celulares aumentará alrededor de 2.2 
por cada 100 personas. El valor del intercepto de 14.47 indica que, aunque el ingreso per cápita 
sea cero, el número promedio de suscriptores de teléfonos celulares es de alrededor de 14 por 
cada 100 personas. Una vez más, es posible que esta interpretación no tenga mucho sentido, 
pues en la muestra no se incluye ningún país con ingreso per cápita cero. El valor de r? es mode- 
radamente alto. Sin embargo, observe que la muestra incluye varios países con diferentes niveles 
de ingreso. En una muestra tan diversa, no se esperaría un valor de r? muy alto. 

Después de estudiar el capítulo 5, mostraremos que los errores estándar estimados que se 
obtienen con la ecuación 3.7.3 sirven para evaluar el significado estadístico de los coeficientes 
estimados. 


Demanda de computadoras personales. Aunque los precios de las computadoras personales 
han disminuido considerablemente con el transcurso de los años, las PC aún no están presentes en 
todas partes. Un determinante importante de la demanda de computadoras personales es el 
ingreso personal. Otro determinante es el precio, pero no se dispone de datos comparativos de 
los precios de PC en los países de la muestra. 

Si Y denota el número de PC y X el ingreso per cápita, se obtiene la siguiente demanda “par- 
cial” de PC (parcial porque no se cuenta con datos de precios comparativos ni datos sobre otras 
variables que podrían afectar la demanda de PC). 


f, = 6.5833 + 0.0018X; (3.7.4) 
ee(B1) = 2.7437; ee(ĝ2) = 0.00014 
r2= 0.8290 


Como indican estos resultados, el ingreso per cápita tiene relación positiva con la demanda de 
PC. Después de estudiar el capítulo 5 veremos que, en términos estadísticos, el ingreso per cápita 
es un determinante importante de la demanda de PC. El valor negativo del intercepto en el pre- 
sente caso no tiene un significado práctico. Pese a la diversidad de la muestra, el valor estimado 
de r? es muy alto. La interpretación del coeficiente de pendiente es que si el ingreso per cápi- 
ta aumenta, por ejemplo, 1 000 dólares en promedio, la demanda de computadoras personales 
aumentará en alrededor de 2 unidades por cada 100 personas. 

Aunque el uso de las computadoras personales se extiende con rapidez, hay muchos países 
en los que todavía se usan computadoras centrales (mainframes). Por tanto, el uso total de 
computadoras en esos países puede ser mucho más elevado de lo que indica la venta de PC. 


3.8 Una observación sobre los experimentos Monte Carlo 


En este capítulo vimos que, conforme a los supuestos del MCRL, los estimadores de mínimos cua- 

drados tienen ciertas características estadísticas deseables que se resumen en la propiedad MELI. 

En el apéndice de este capítulo comprobamos esta propiedad más formalmente. Pero en la prác- 

tica, ¿cómo saber si se mantiene la propiedad MELI? Por ejemplo, ¿cómo se puede averiguar si los 

estimadores de MCO son insesgados? La respuesta proviene de los llamados experimentos Monte 

Carlo, los cuales son, en esencia, experimentos de muestreo o de simulación en computadora. 
Para introducir las ideas básicas, consideremos la FRP de dos variables: 


Y, = fı + P2X; + ui (3.8.1) 
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Un experimento Monte Carlo se realiza de la siguiente forma: 


1. Supongamos que los valores verdaderos de los parámetros son los siguientes: $; = 20 y 
B2 = 0.6. 


2. Escogemos el tamaño de la muestra, por ejemplo, n = 25. 
3. Fijamos los valores de X para cada observación. En total se tendrán 25 valores de X. 


4. Supongamos que se consulta una tabla de números aleatorios, elegimos 25 valores y los 
denominamos u; (hoy en día, la mayoría de los paquetes estadísticos tienen generadores de nú- 
meros aleatorios integrados). 


5. Como conocemos B, b2, Xi y ui, con la ecuación (3.8.1) obtenemos 25 valores de Y;. 


6. Ahora, con los 25 valores de Y; generados de esa forma, efectuamos la regresión de estos 
valores sobre los 25 valores de X seleccionados en el paso 3, y así se obtienen los estimadores de 
mínimos cuadrados 61 y B2. 


7. Supongamos que repite este experimento 99 veces, siempre con los mismos valores de £4, 
B2 y X. Sin duda, los valores u; variarán de un experimento a otro. Por consiguiente, en total se 
tienen 100 experimentos, para generar así 100 valores para cada 61 y £2. (En la práctica se reali- 
zan muchos experimentos de este tipo; en ocasiones llegan a 1 000 o 2 000.) 


8. Tomamos los promedios de estos 100 valores estimados y los denominamos ĝi y ĝ». 


9. Si estos valores promedio son más o menos los mismos que los valores verdaderos de 6; 
y f2z supuestos en el paso 1, mediante este experimento Monte Carlo se “establece” que, en 
efecto, los estimadores de mínimos cuadrados son insesgados. Recuerde que, según el MCRL, 


E(B1) = Bi y E(B) = Bo. 


Estos pasos caracterizan la naturaleza general de los experimentos Monte Carlo. Tales experi- 
mentos son comunes al estudiar las propiedades estadísticas de diversos métodos de estimación 
de parámetros poblacionales. Son en particular útiles para estudiar el comportamiento de los 
estimadores en muestras pequeñas, o finitas. Estos experimentos son también un medio excelente 
de demostración del concepto de muestreo repetido, que es la base de la mayor parte de la infe- 
rencia estadística clásica, como veremos en el capítulo 5. Se presentarán diversos ejemplos de los 
experimentos Monte Carlo en forma de ejercicios para realizar en clase (véase el ejercicio 3.27). 


Resumen y 
conclusiones 


Los temas y conceptos importantes de este capítulo se resumen de la siguiente forma. 


hb 


. El marco básico del análisis de regresión es el MCRL. 
2. El MCRL se basa en un conjunto de supuestos. 


3. Con base en estos supuestos, los estimadores de mínimos cuadrados adquieren ciertas pro- 
piedades resumidas en el teorema de Gauss-Markov, el cual plantea que dentro de la clase de 
estimadores lineales insesgados, los estimadores de mínimos cuadrados tienen una varianza 
mínima. En resumen, son MELI. 


4. La precisión de los estimadores de MCO se mide por sus errores estándar. En los capítulos 
4 y 5 veremos que los errores estándar permiten hacer inferencias sobre los parámetros pobla- 
cionales, los coeficientes £. 


5. La bondad del ajuste general del modelo de regresión se mide con el coeficiente de determi- 
nación, 7°. Éste indica qué proporción de la variación en la variable dependiente, o variable 
regresada, se explica por la variable explicativa, o regresora. r° se sitúa entre 0 y 1; entre más 
cerca esté de 1, mejor será el ajuste. 


24 En la práctica se supone que u; sigue una cierta distribución de probabilidad, digamos, normal, con algu- 
nos parámetros (es decir, la media y la varianza). Una vez especificados los parámetros, con paquetes esta- 
dísticos se generan con facilidad las u;. 
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6. Un concepto relacionado con el coeficiente de determinación es el coeficiente de correla- 
ción, z. Es una medida de asociación lineal entre dos variables y su valor se encuentra entre 
=l y+. 

7. El MCRL es un concepto o abstracción teórica, pues se basa en un conjunto de supuestos que 
pueden ser rigurosos o “poco reales”. Sin embargo, tal abstracción es a menudo necesaria en 
las etapas iniciales del estudio de cualquier disciplina. Una vez dominado el MCRL, se puede 
saber lo que sucede si uno o más de sus supuestos no se satisfacen. La primera parte de este 
libro se dedica al estudio del MCRL. Las demás partes del libro se consideran refinaciones del 
MCRL. La tabla 3.4 señala el mapa del camino. 


TABLA 3.4 j 
¿Qué sucede si se vio- Número del 5 y 
lan los supuestos del supuesto Tipo de violación ¿Dónde estudiarlo? 
MCRL? 1 No linealidad en parámetros Capítulo 14 
2 Regresora(s) estocástica(s) Capítulo 13 
3 Media de u; distinta de cero Introducción a la parte II 
4 Heteroscedasticidad Capítulo 11 
5 Perturbaciones autocorrelacionadas Capítulo 12 
6 Observaciones muestrales menores que Capítulo 10 
el número de regresoras 
7 Variabilidad insuficiente en las regresoras Capítulo 10 
8 Multicolinealidad* Capítulo 10 
9 Sesgo de especificación* Capítulos 13 y 14 
10** No normalidad de las perturbaciones Capítulo 13 
*Estos supuestos se presentan en el capítulo 7, cuando se estudie el modelo de regresión múltiple. 
**Nota: El supuesto de que las perturbaciones u; están normalmente distribuidas no forma parte del MCRL. Véase más al respecto en 
el capítulo 4. 
EJERCICIOS Preguntas 


3.1. Dados los supuestos en la columna 1 de la siguiente tabla, demuestre que los supuestos en 
la columna 2 son equivalentes. 


Supuestos del modelo clásico 


(1) (2) 

E(u¡| Xi) = 0 ECY; | X) = B2 + B2X 
cov (u, u) =0i4j  cov(Y, Y) =0i¡H%] 
var (uil X) = 0? var (Y; |X) = 0? 


3.2. Demuestre que los valores estimados ĝi = 1.372 y Ba = 1.357 del primer experimento de 
la tabla 3.1 son en realidad los estimadores de MCO. 


3.3. De acuerdo con Malinvaud (véase la nota 11), el supuesto de que E(u; | X) = 0 es muy 
importante. Para ver esto, considere la FRP: Y = B¡ + f2X; + u;. Ahora considere dos 
situaciones: i) B¡ = 0, B2= 1 y E(u) = 0; y ii) 61 = 1, b2 = 2 y Eu) = (X; — 1). Ahora 
obtenga la esperanza de la FRP condicional sobre X en los dos casos anteriores y vea si está 
de acuerdo con Malinvaud sobre la significancia del supuesto E(u; | X;) = 0. 
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3.4. Considere la regresión muestral 


3S: 


3.6. 


SNA 


3.8. 


3:9) 


3.10. 


Y, = a d e +0 


Impuestas las restricciones i) X- ù; = 0 y ii) Yu, X; = 0, obtenga los estimadores Êi y Ba, 
y demuestre que son idénticos a los estimadores de mínimos cuadrados dados en (3.1.6) y 
(3.1.7). Este método de obtención de estimadores se denomina principio de analogía. 
Dé una justificación intuitiva de la imposición de las restricciones 1) y ii). (Sugerencia: 
recuerde los supuestos del MCRL sobre u;.) Además, tenga en cuenta que el principio de 
analogía para la estimación de parámetros desconocidos se llama también método de mo- 
mentos, en el cual los momentos muestrales (por ejemplo, la media muestral) sirven para 
estimar los momentos poblacionales (por ejemplo, la media poblacional). Como se anota 
en el apéndice A, un momento es un resumen estadístico de una distribución de probabi- 
lidad, como el valor esperado y la varianza. 


Demuestre que r? definido en (3.5.5) varía entre 0 y 1. Utilice la desigualdad de Cauchy- 
Schwarz, la cual establece que para dos variables aleatorias X y Y cualesquiera se cumple 
la siguiente relación: 


[E(XY)] < EXE’) 


Sean Byx y Êxy las pendientes en la regresión de Y sobre X y de X sobre Y, respectiva- 
mente. Demuestre que 


A 2 
BrxBxy =r 


donde r es el coeficiente de correlación entre X y Y. 


Suponga en el ejercicio 3.6 que Br X Ê yxy = 1. ¿Tiene importancia entonces si se hace la 
regresión Y sobre X, o X sobre Y? Explique detalladamente. 


El coeficiente de correlación de orden de Spearman, r;,, se define de la siguiente forma: 


ROPA 
TS — 1) 


P= 


donde d = la diferencia en las posiciones o lugares asignados al mismo individuo o fenó- 
meno, y n = número de individuos o de fenómenos ordenados. Obtenga r, a partir de la 
r definida en (3.5.13). Sugerencia: ordene los valores de X y Y de 1 hasta n. Note que 
la suma de todas las posiciones de X y Y es n(n + 1)/2 y, por consiguiente, sus medias son 
(n + 1)/2. 


Considere las siguientes formulaciones de la FRP de dos variables: 
Modelo I: Y; = bı + b2Xi + ui 
Modelo II: Y; = 1 + %2(X; — X) + u; 


a) Encuentre los estimadores de 61 y œ1. ¿Son idénticos? ¿Sus varianzas son idénticas? 
b) Encuentre los estimadores de 62 y œ2. ¿Son idénticos? ¿Sus varianzas son idénticas? 
c) ¿Cuál es la ventaja, si acaso, del modelo II sobre el modelo I? 


Suponga que realiza la siguiente regresión: 
Da = [Pi < Poa AF e 


donde, como siempre, y; y x; son desviaciones de sus respectivos valores medios. ¿Cuál 
será el valor de BO ¿Por qué? ¿Será Ba igual al obtenido de la ecuación (3.1.6)? ¿Por 
qué? 


TABLA 3.5 


3.11. 


3.12, 


3.13. 


3.14. 


315; 


3.16. 


3.17. 
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Sea rı = coeficiente de correlación entre n pares de valores (Y;, X;) y r2 = coeficiente de 
correlación entre n pares de valores (aX; + b, cY; + d), donde a, b, c y d son constantes. 
Demuestre que rı = r2 y de aquí establezca el principio de que el coeficiente de correla- 
ción es invariante frente a cambios de escala o cambios de origen. 


Sugerencia: aplique la definición de r dada en (3.5.13). 


Nota: las operaciones aX;, X; + b, y aX; + b se conocen respectivamente por los nombres 
de cambios de escala, cambios de origen y cambios de escala y de origen. 


Si r, el coeficiente de correlación entre n pares de valores (X; Y;), es positivo, determine si 
las siguientes afirmaciones son ciertas o falsas: 

a) rentre (—X;, — Y;) es también positivo. 

b) r entre (—X;, Y;) y aquel entre (X;, —Y;) pueden ser positivos o negativos. 

c) Los dos coeficientes de pendiente, By y Bx son positivos, donde By. = coeficiente de la 


pendiente en la regresión de Y sobre X y Sx = coeficiente de la pendiente en la regre- 
sión de X sobre Y. 


Si X1, X y X; son variables no correlacionadas y cada una tiene la misma desviación es- 
7 > ap A 1 
tándar, demuestre que el coeficiente de correlación entre X, + X2 y X2 + 453 es igual a 5. 

¿Por qué el coeficiente de correlación no es cero? 


En la regresión Y; = 6] + 2X; + u;, suponga que se multiplica cada valor de X por una 
constante, 2, por ejemplo. ¿Cambiará esto los residuos y los valores ajustados de Y? Expli- 
que. ¿Qué sucede si se agrega un valor constante, por ejemplo, 2, a cada valor de X? 


Demuestre que (3.5.14) mide en realidad el coeficiente de determinación. Sugerencia: apli- 

que la definición de r dada en (3.5.13) y recuerde que Ð y:fi = NÓ, + 40% =P, 

y recuerde (3.5.6). 

Dé razones por las que los siguientes enunciados son verdaderos, falsos o ambiguos. 

a) Como la correlación entre dos variables, Y y X, puede variar de —1 a +1, esto significa 
que cov(Y, X ) también está dentro de esos límites. 

b) Si la correlación entre dos variables es cero, esto quiere decir que no existe ninguna 
relación entre las dos variables. 

c) Si se hace la regresión de Y; sobre Î, (es decir, la Y real sobre la Y estimada), el valor 
del intercepto y de la pendiente serán respectivamente 0 y 1. 


Regresión sin regresora. Suponga que se le proporciona el siguiente modelo: Y; = 61 + ui. 
Con los MCO, determine el estimador de 61. ¿Cuál es su varianza y su SCR? ¿La esti- 
mación ĝ; tiene algún sentido intuitivo? Ahora considere el modelo de dos variables Y; = 
B1 + 2X; + ui. ¿Vale la pena añadir X; al modelo? Si no es así, ¿por qué molestarse con el 
análisis de regresión? 


Ejercicios empíricos 


3.18. 


En la tabla 3.5 se dan las posiciones o lugares de 10 estudiantes en los exámenes interme- 
dios y finales de estadística. Calcule el coeficiente de correlación de orden de Spearman e 
Interprételo: 


Estudiante 
Posición A B C D E F G H l J 
Intermedios 1 3 7 10 9 5 4 8 2 6 
Finales 3 2 8 7 9 6 5 10 1 4 
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3.19. 


3.20. 


Relación entre el tipo de cambio nominal y los precios relativos. A partir de las observa- 
ciones anuales de 1985 a 2005, se obtuvieron los siguientes resultados de regresión, donde 
Y = tipo de cambio del dólar canadiense respecto del dólar estadounidense (CD/$) y 
X = razón entre el índice de precios al consumidor estadounidense y el índice de precios al 
consumidor canadiense; es decir, X representa los precios relativos en ambos países: 


YA = -0.912+2.250X, r? = 0.440 
ee = 0.096 


a) Interprete esta regresión. ¿Cómo interpretaría r°? 

b) ¿El valor positivo de X, tiene sentido económico? ¿En qué teoría económica se basa? 

c) Suponga que se fuera a redefinir X como la razón entre el IPC canadiense respecto del 
IPC estadounidense. ¿Lo anterior haría cambiar el signo de X? ¿Por qué? 


La tabla 3.6 proporciona datos sobre los índices de producción por hora (X) y la compen- 
sación real por hora (Y ) de los negocios y sectores no agrícolas de la economía de Estados 
Unidos de 1960 a 2005. El año base para los índices es 1992 = 100; además, los índices se 
ajustan por estacionalidad. 

a) Grafique por separado Y respecto de X para los dos sectores. 


b) ¿En qué teoría económica se basa la relación entre ambas variables? ¿El diagrama de 
dispersión apoya esta teoría? 


== 


c) Estime la regresión MCO de Y sobre X. Guarde los resultados para una revisión poste- 


rior, cuando estudie el capítulo 5. 


. De una muestra de 10 observaciones se obtuvieron los siguientes resultados: 


O NI A = 
Yrs Y y =e 


con el coeficiente de correlación r = 0.9758. Pero al verificar estos cálculos se descubrió 
que se registraron dos pares de observaciones: 


Y X Y X 


90 120 an lugar de 80 110 


140 220 150 210 


¿Cuál será el efecto de este error en r? Obtenga la r correcta. 


. La tabla 3.7 presenta los datos sobre el precio del oro, el índice de precios al consumidor 


(IPC) y el índice de la Bolsa de Valores de Nueva York (BVNY) de Estados Unidos de 1974 
a 2006. El índice de la BVNY incluye la mayor parte de las acciones registradas, las cuales 
ascienden a más de 1 500. 

a) En el mismo diagrama de dispersión, grafique los precios del oro, el IPC y el índice de 
la BVNY. 

b) Se supone que una inversión es una protección contra la inflación si su precio o la tasa 
de rendimiento se mantiene por lo menos al ritmo de la inflación. Para probar esta hi- 
pótesis, suponga que se decide ajustar el siguiente modelo, suponiendo que el gráfico 
de los puntos dispersos en a) indica que esto es lo apropiado: 


Precio del oro, = 61 + B2 IPC, + u, 
Índice BVNY, = fB + b2 IPC, + u; 


TABLA 3.6 
Productividad y datos 
relacionados, sector de 
negocios 1960-2005 
(cifras de Índices, 

1992 = 100; datos 
trimestrales ajustados 
por estacionalidad) 


Fuente: Economic Report of the 
President, 2007, tabla 49. 
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Año 


1960 
1961 
1962 
1963 
1964 
1965 
1966 
1967 
1968 
1969 
1970 
1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 
1981 
1982 
1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 
2004 
2005 


Producción por hora de 
todas las personas! 


Sector de 
negocios 


95.9 
100.0 
100.4 
101.3 
101.5 
104.5 
106.5 
109.5 
112.8 
116.1 
119.1 
124.0 
128.7 
132.7 
135.7 


Sector de 
negocios no 
agrícolas 


Remuneración real 


por hora?3 
Sector de 
Sector de negocios no 
negocios agrícolas 
60.8 63.3 
62.5 64.8 
64.6 66.7 
66.1 68.1 
67.7 69.3 
69.1 70.5 
71.7 72.6 
73.5 74.5 
76.2 77.1 
77.3 78.1 
78.8 79.2 
80.2 80.7 
82.6 83.2 
84.3 84.7 
83.3 83.8 
84.1 84.5 
86.4 86.6 
87.6 88.0 
89.1 89.6 
89.3 89.7 
89.1 89.6 
89.3 89.8 
90.4 90.8 
90.3 90.9 
90.7 91.1 
92.0 92.2 
94.9 95.2 
95.2 95.5 
96.5 96.7 
95.0 95.1 
96.2 96.1 
97.4 97.4 
100.0 100.0 
99.7 99.5 
99.0 99.1 
98.7 98.8 
99.4 99.4 
100.5 100.3 
105.2 104.9 
108.0 107.5 
112.0 111.5 
113.5 112.8 
115.7 115.1 
117.7 117.1 
119.0 118.2 
120.2 119.3 


! Producción se refiere al producto interno bruto real en el sector. 
2 Sueldos y salarios de los empleados, más la contribución de los patrones al seguro social y los planes privados de prestaciones. 
3 Remuneración por hora dividida entre el índice de precios al consumidor para todos los consumidores urbanos en los trimestres 


recientes. 
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TABLA 3.7 

Precios del oro, índice Año Precio del oro BVNY IPC 

de la Bolsa de Valores de 1974 159.2600 463.5400 49.30000 

Nueva York e Índice de 1975 161.0200 483.5500 53.80000 

Precios al Consumidor 1976 124.8400 575.8500 56.90000 

de Estados Unidos, 1977 157.7100 567.6600 60.60000 

1974-2006 1978 193.2200 567.8100 65.20000 
1979 306.6800 616.6800 72.60000 
1980 612.5600 720.1500 82.40000 
1981 460.0300 782.6200 90.90000 
1982 375.6700 728.8400 96.50000 
1983 424.3500 979.5200 99.60000 
1984 360.4800 977.3300 103.9000 
1985 317.2600 1 142.970 107.6000 
1986 367.6600 1 438.020 109.6000 
1987 446.4600 1 709.790 113.6000 
1988 436.9400 1 585.140 118.3000 
1989 381.4400 1 903.360 124.0000 
1990 383.5100 1 939.470 130.7000 
1991 362.1100 2 181.720 136.2000 
1992 343.8200 2 421.510 140.3000 
1993 359.7700 2 638.960 144.5000 
1994 384.0000 2 687.020 148.2000 
1995 384.1700 3 078.560 152.4000 
1996 387.7700 3 787.200 156.9000 
1997 331.0200 4 827.350 160.5000 
1998 294.2400 5 818.260 163.0000 
1999 278.8800 6 546.810 166.6000 
2000 279.1100 6 805.890 172.2000 
2001 274.0400 6 397.850 177.1000 
2002 309.7300 5 578.890 179.9000 
2003 363.3800 5 447.460 184.0000 
2004 409.7200 6 612.620 188.9000 
2005 444.7400 7 349.000 195.3000 
2006 603.4600 8 357.990 201.6000 


3.23. La tabla 3.8 proporciona datos sobre el producto interno bruto (PIB) de Estados Unidos de 
1959 a 2005. 
a) Grafique los datos del PIB en dólares actuales y constantes (es decir, de 2000) respecto 
del tiempo. 
b 


© 


Sea Y el PIB y X el tiempo (medido cronológicamente, empezando con 1 para 1959, 2 
para 1960, hasta 47 para 2005), observe si el siguiente modelo se ajusta a los datos del 
PIB: 

Y, = Pi + P2X, + u 


Estime este modelo para el PIB en dólares constantes y actuales. 


== 


c) ¿Cómo interpretaría 62? 


d) Si existiera una diferencia entre el valor estimado de 6» para el PIB en dólares actuales 
y el estimado para el PIB en dólares constantes, ¿qué la explicaría? 


e 


== 


Con base en sus resultados, ¿qué puede decir sobre la naturaleza de la inflación en 
Estados Unidos en el periodo de muestra? 
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TABLA 3.8 E 
Pro dicto into brlto Año PIBN PIBR Año PIBN PIBR 
nominal y real, Estados 1959 506.6 2 441.3 1983 3 536.7 5 423.8 
Unidos, 1959-2005 (miles 1960 526.4 2 501.8 1984 3 933.2 5813.6 
de millones de dólares, 1961 544.7 2 560.0 1985 4 220.3 6 053.7 
salvo si se indica otra 1962 585.6 2 715.2 1986 4 462.8 6 263.6 
cosa; datos trimestrales 1963 617.7 2 834.0 1987 4 739.5 6 475.1 
a tasas anuales ajustadas 1964 663.6 2 998.6 1988 5 103.8 6 742.7 
por estacionalidad; pro- 1965 719.1 3 191.1 1989 5 484.4 6 981.4 
ducto interno bruto real 1966 787.8 3 399.1 1990 5 803.1 7112.5 
[PIBR] en miles de mi- 1967 832.6 3 484.6 1991 5 995.9 7 100.5 
llones de dólares de 2000 1968 910.0 3 652.7 1992 6 337.7 7 336.6 
ajustados en el tiempo 1969 984.6 3 765.4 1993 6 657.4 7 532.7 
por la inflación) 1970 1038.5 3 771.9 1994 7 072.2 7 835.5 
1971 1127.1 3 898.6 1995 7 397.7 8 031.7 
1972 1 238.3 4 105.0 1996 7816.9 8 328.9 
1973 1 382.7 4 341.5 1997 8 304.3 8 703.5 
1974 1 500.0 4 319.6 1998 8 747.0 9 066.9 
1975 1 638.3 4 311.2 1999 9 268.4 9 470.3 
1976 1 825.3 4 540.9 2000 9817.0 9817.0 
1977 2 030.9 4 750.5 2001 10 128.0 9 890.7 
1978 2 294.7 5 015.0 2002 10 469.6 10 048.8 
1979 2 563.3 5 173.4 2003 10 960.8 10 301.0 
1980 2 789.5 5 161.7 2004 11 712.5 10 703.5 
1981 3 128.4 5 291.7 2005 12 455.8 11 048.6 
1982 3 255.0 5 189.3 


Fuente: Economic Report of the President, 2007 tablas B-1 y B-2. 


3.24. Con los datos de la tabla I.1 de la Introducción, verifique la ecuación (3.7.1). 


3.25. Para el ejemplo del examen SAT presentado del ejercicio 2.16, haga lo siguiente: 

a) Grafique la calificación del examen de lectura de mujeres contra la calificación del 
examen de lectura de hombres. 

b) Si el diagrama de dispersión indica que parece apropiado establecer una relación lineal 
entre los dos, obtenga la regresión de la calificación del examen de lectura de mujeres 
sobre la calificación del examen de lectura de hombres. 

c) De haber una relación entre las dos calificaciones de lectura, ¿dicha relación sería cau- 
sal? 


3.26. Repita el ejercicio 3.25, pero ahora sustituya las calificaciones de lectura con las de mate- 
máticas. 


3.27. Trabajo para realizar en clase sobre el estudio Monte Carlo: Consulte los 10 valores de 
X de la tabla 3.2. Sea 61 = 25 y f2 = 0.5. Suponga que u; œ~ N(0, 9), es decir, las u; están 
normalmente distribuidas con media 0 y varianza 9. Genere 100 muestras con estos valores 
para obtener 100 valores estimados de 6, y £2. Grafique estos valores estimados. ¿A qué 
conclusiones llega a partir del estudio Monte Carlo? Nota: ahora la mayor parte de los 
paquetes estadísticos genera variables aleatorias de casi todas las distribuciones de proba- 
bilidad conocidas. Pida ayuda a su profesor en caso de que tenga dificultad para generar 
dichas variables. 


3.28 Con los datos de la tabla 3.3, obtenga la gráfica del número de suscriptores de teléfonos 
celulares en relación con el número de computadoras personales en uso. ¿Hay alguna rela- 
ción discernible entre los dos? De ser así, ¿cómo la explicaría? 
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Apéndice 3A 


3A.1 Derivación de estimados de mínimos cuadrados 


Al diferenciar parcialmente (3.1.2) respecto de $, y 8, se obtiene 


(Es) 


T = 2 (4% — $1 — $241) = 2) 6 (1) 

1 

3 ¡2 

En = 2% — Êi — Ê&X)Xi = 2 Y ù: Xi (2) 
2) 


Se igualan estas ecuaciones a cero y, después de alguna simplificación y manipulación algebraica, se obtie- 
nen los estimadores dados en las ecuaciones (3.1.6) y (3.1.7). 


3A.2 Propiedades de linealidad e insesgamiento 
de los estimadores de mínimos cuadrados 


De (3.1.8) se tiene 


a Y, 
ĝ = — = Y ar 6) 


donde 


Xi 


la = ==+ 


Es) 


lo cual muestra que $, es un estimador lineal porque es una función lineal de Y; de hecho, es un promedio 
ponderado de Y; donde k; representa las ponderaciones. De la misma manera se demuestra que Bi también 
es un estimador lineal. 

Por cierto, note las siguientes propiedades de las ponderaciones k;: 


1. Como se supuso que las X; son no estocásticas, las k; también son no estocásticas 
Lo la 

2 2 
3. ZR = a 


4. Y kixi = ) k;¡X; = 1. Estas propiedades se verifican directamente con la definición de k;. 


Por ejemplo, 


xa Y 1 2 
` ki = y (3) = = ` Xi, pues, para una muestra dada, se conoce X` xí 


= (0), pues }_ x;, la suma de las desviaciones de la media, es 
siempre cero. 


Ahora sustituya la FRP Y; = fı + 2X; + u; en la ecuación (3) para obtener 
Ê = kB + B2X; + ui) 
=f ki + Bo YX + ku (4) 
=P2+ Doku 


donde se emplean las propiedades de k; anotadas antes. 
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Ahora, al obtener los valores esperados de la ecuación (4) para ambos lados y advertir que las k;, al ser 
no estocásticas, pueden tratarse como constantes, se obtiene: 


E(B2) = b2 +) ki Elus) 
= Ba 


(5) 


pues E(u;) = 0 por suposición. Por consiguiente, $, es un estimador insesgado de f2. De la misma manera 
se demuestra que f; es también un estimador insesgado de £1. 


3A.3 Varianzas y errores estándar de los estimadores 
de mínimos cuadrados 


Ahora, de acuerdo con la definición de varianza, se escribe 


var ($2) = ElB> — E(BIV 
= E(f — p) porque E(ĝ2) = £2 


2 i f (6) 
= 12 Z ki D) con la ecuación (4) anterior 
= E (kah + kus +-+ du? + 2k¡k73u34) +--+ 2kn-ikntin-1un ) 
Por los supuestos E(u?) = 0? para cada i y Elu¡u¡) = 0, i A j, se deduce que 
var(B) =0* 9 k; 
o 2 

= con la definición de k; 7 
7 ( 7) (7) 


= Ecuación (3.3.1) 


La varianza de fı se obtiene con el mismo razonamiento. Una vez obtenidas las varianzas de $, y Bf», se 
obtienen también los errores estándar correspondientes, al tomar las raíces cuadradas positivas. 


3A.4 Covarianza entre $; y f2 


Por definición, 


cov (Êi, Ê2) = Elló — ECÊDILÊ: — EÊ») 
= E(B1 — BiNB2—B2) (¿Por qué?) 
= —XE(Ba — Bay (8) 
=—X var (Ê) 
= Ecuación (3.3.9) 


donde se aprovecha que Bi =Y- ÊX y E(B1) = Y — P»X, que es igual a ĝi — E(BI) = =K — Ba). 
Nota: la var(f2) está dada en la ecuación (3.3.1). 


3A.5 Estimador de mínimos cuadrados de o? 


Recuerde que 


We = MP DA e O (9) 
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Por consiguiente, 
Y=8 +8 X+u (10) 
Al restar la ecuación (10) de la ecuación (9) se obtiene 
Yi = Paxi + (u; — u) (11) 
Recuerde también que 


EA (12) 


0 = Pax; + (u; — 0) — Box; (13) 
Se reúnen términos, se eleva al cuadrado y se suman ambos lados para obtener: 
NA A A A) 
Al tomar valores esperados en ambos lados se tiene 
E 2 â?) = DAN = p) +E Bg = iy] =2418, Kê = B) x(u = 5] 
= D var(B2) + (n — 1) var (u;) — 2E E ku: (ius) 
=0 +(n-1D)0?-2E PS kx] (15) 
=o (u= la? = 
= (n — 2)o? 


donde, en el penúltimo paso, se utiliza la definición de k; dada en la ecuación (3) y la relación dada en la 
ecuación (4). También observe que 


donde se aprovecha que las u; están no correlacionadas y que la varianza de cada u; es o°. 
Así, se obtiene 


E DE â?) = (n — 2)o? (16) 
Por tanto, si se define 
02 
ô? = 2 ui (1 7) 
n=2 
su valor esperado es 
1 
A 2) = 0? ió 18 
B) E z2 63 a) o con la ecuación (16) (18) 


lo cual muestra que 0? es un estimador insesgado de la verdadera 0°. 
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3A.6 Propiedad de varianza mínima de los estimadores 
de mínimos cuadrados 


Se demostró en el apéndice 3A, sección 3A.2, que el estimador $2 de mínimos cuadrados f» era lineal e 
insesgado (esto vale también para 61). Para demostrar que estos estimadores tienen varianza mínima dentro 
de la clase de todos los estimadores lineales insesgados, considere el estimador de mínimos cuadrados 6: 


ĝ = Y 
donde 
Xi = xX 


i 

— AX E 

lo cual demuestra que Ba es un promedio ponderado de las Y con las k; como ponderaciones. 
Se define un estimador lineal alterno de fz de la siguiente forma: 


B = Y T (20) 
donde w; son también ponderaciones, no necesariamente iguales a k;. Ahora 
E(B3) = X wE) 
= Y witB1 + B2X;) (21) 
=Bi Sm + Ba Y mX, 
Por consiguiente, para que ($5) sea insesgado se requiere que 


w =0 (22) 
DE 


(véase el apéndice 3A.2) (19) 


i 


D wXi=1l (23) 
También se puede escribir 
var ($3) = var wi Y; 
=} wi varY, [Nota: var Y, = varu; = 0°] 


=0? Do [Wota: cov(Y;, m= VE 4 7)] 


) (Observe la manipulación matemática) 


Pa 
S 0 


porque el último término desaparece en el penúltimo paso. (¿Por qué?) 
Como el último término en la ecuación (24) es constante, la varianza de (85) sólo se reduce al manipular 
el primer término. Sea 


Xi 
e 
La ecuación (24) se reduce a 
Ge 
Ey = 
var (3) = Nx? (25) 


= var(B2) 
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Expresado en palabras, con ponderaciones w; = k;, que son ponderaciones de mínimos cuadrados, la va- 
rianza del estimador lineal $5 es igual a la del estimador de mínimos cuadrados B»; de lo contrario, la 
var (6%) > var (B>). Dicho de otra manera, si hay un estimador lineal insesgado de 6z de varianza mínima, 
debe ser el estimador de mínimos cuadrados. Del mismo modo se demuestra que $, es un estimador lineal 
insesgado con varianza mínima de £1. 


3A.7 Consistencia de los estimadores de mínimos 
cuadrados 


Ya se demostró que, en el marco teórico del modelo de regresión lineal clásica, los estimadores mínimos 
cuadrados son insesgados (y eficientes) con cualquier tamaño de muestra, grande o pequeña. Pero a veces, 
como se analiza en el apéndice A, un estimador no satisface una o más propiedades estadísticas deseables 
en pequeñas muestras. Sin embargo, a medida que el tamaño de la muestra crece indefinidamente, los es- 
timadores poseen diversas propiedades estadísticas deseables. Tales propiedades se conocen como propie- 
dades asintóticas o de muestras grandes. En el apéndice se analizará una propiedad de muestra grande, a 
saber, la propiedad de consistencia, que se estudia con mayor detalle en el apéndice A. Para el modelo de 
dos variables ya se mostró que el estimador de MCO Â; es un estimador insesgado del verdadero 62. Ahora 
se demuestra que Bo es también un estimador consistente de 2. Como se analiza en el apéndice A, una 
condición suficiente para la consistencia es que $, sea insesgado y que su varianza tienda a cero conforme 
el tamaño de la muestra n tienda al infinito. 

Como ya se probó la propiedad de insesgamiento, sólo se necesita demostrar que la varianza de $, tiende 
a cero conforme n crece indefinidamente. Se sabe que 


E a? 0?/n 
var = =53 = == 26 
(B2) o (26) 
Al dividir el numerador y el denominador por n, no se modifica la igualdad. 
Ahora 
2 
lím var (Êz) = lím E =0 (27) 
— Á 
n —> 00 n= œ 


donde se aprovecha que 1) el límite de una razón es el límite del numerador entre el límite del denominador 
(consulte un libro de cálculo); 2) conforme n tiende a infinito, 0?/n tiende a cero porque o? es un número 
finito, y [O x?)/n] 4 0 porque la varianza de X tiene un límite finito en vista del supuesto 7 del MCRL. 

La conclusión del análisis anterior es que el estimador de MCO É, es un estimador consistente del ver- 
dadero 82. De igual forma, se establece que $, también es un estimador consistente. Por tanto, en repetidas 
muestras (pequeñas), los estimadores de MCO son insesgados, y conforme la muestra aumenta indefi- 
nidamente, los estimadores de MCO son consistentes. Como se verá más tarde, aunque no se satisfagan 
algunas suposiciones del MCRL, en diversas situaciones es posible obtener estimadores consistentes de los 
coeficientes de regresión. 


Capítulo 


Modelo clásico de 
regresión lineal normal 


(MCRLN) 


La llamada teoría clásica de la inferencia estadística consta de dos ramas, a saber: estimación 
y pruebas de hipótesis. Hasta el momento hemos estudiado el tema de la estimación de los 
parámetros del modelo de regresión lineal Je dos variables). Mediante el método de MCO fue 
posible estimar los parámetros 61, 62 y o°. Con los supuestos del modelo clásico e regresión 
lineal (MCRL) demostramos que los estimadores de dichos parámetros, Êi, b2 y 6?, satisfacen 
varias propiedades estadísticas deseables, como el insesgamiento, la varianza mínima, etc. (Re- 
cuerde la propiedad MELI.) Observe que, en vista de que son estimadores, sus valores cambiarán 
de muestra en muestra. Por consiguiente, tales estimadores son variables aleatorias. 

Pero la estimación es sólo la mitad de la batalla. Las pruebas de hipótesis constituyen la otra 
mitad. Tenga presente que, en el análisis de regresión, nuestro objetivo no sólo consiste en esti- 
mar la función de regresión muestral (FRM), sino también en utilizarla para obtener inferencias 
respecto de la función de regresión poblacional (FRP), como destacamos en el capítulo 2. a 
es aa saber qué tan cerca está B ı del verdadero valor de 61, o qué tan cerca está ô 2 del 
verdadero 0?. Por ejemplo, en el ejemplo 3.2 estimamos la FRM como se muestra en la ecuación 
(3.7.2). Pero, en vista de que la regresión se basa en una muestra de 55 familias, ¿cómo saber si 
la PMC estimada de 0.4368 ma la PMC (verdadera) en la población total? 

Por tanto, como Br Ba y 6? son variables aleatorias, es necesario averiguar sus distribuciones 
de probabilidad, pues sin conocerlas no es posible relacionarlas con sus valores verdaderos. 


4.1 Distribución de probabilidad de las perturbaciones u; 


Para encontrar las distribuciones de probabilidad de los estimadores de MCO, procederemos 
como sigue. De manera específica, consideramos f2. Como vimos en el apéndice 3A.2, 


Es Y Y (4.1.1) 


donde k; = x;/» E Sin embargo, como se supone que las X son fijas, o no estocásticas, debido 
a que se trata de un análisis de regresión condicional (condicional en los valores fijos de X;), la 
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ecuación (4.1.1) muestra que Ê es una función lineal de Y;, la cual se supone aleatoria. Pero, 
como Y, = 61 + B2A; + u;, expresamos (4.1.1) como 


Ê» =D kilpi + BX; +45) (4.1.2) 


Debido a que k;, las betas, y X; son fijas, b2 es a fin de cuentas una función lineal de la variable 
aleatoria u;, aleatoria por suposición. Por tanto, la distribución de probabilidad de Ba (y también 
de £1) dependerá del supuesto que se hizo respecto de la distribución de probabilidad de u;. Y 
como se requiere conocer las distribuciones de probabilidad de los estimadores de MCO para 
obtener las inferencias sobre sus valores poblacionales, la naturaleza de la distribución de proba- 
bilidad de u; desempeña un papel importante en las pruebas de hipótesis. 

Debido a que el método de MCO no hace ninguna suposición respecto de la naturaleza pro- 
babilística de u;, resulta de poca ayuda para el propósito de hacer inferencias sobre la FRP me- 
diante la FRM, a pesar del teorema de Gauss-Markov. Este vacío puede llenarse si se supone 
que las u siguen una determinada distribución de probabilidad. Por razones que mencionaremos 
en seguida, en el contexto de regresión se supone, por lo general, que las u tienen la distribución 
de probabilidad normal. Si a los supuestos del modelo clásico de regresión lineal (MCRL) ana- 
lizados en el capítulo 3 se añade el supuesto de normalidad para u;, obtenemos lo que se conoce 
como modelo clásico de regresión lineal normal (UCRLN). 


4.2 Supuesto de normalidad de u; 


El modelo clásico de regresión lineal normal supone que cada u; está normalmente distribuida 
con 


Media: E(u;)=0 (4.2.1) 
Varianza: E[u; — E(u) = E(u?) =0° (4.2.2) 
covíu;, u): E{[(u; — E(uDllu; — E(u; = E(u: u) =0 ¡4 j (4.2.3) 


Estos supuestos se expresan en forma más compacta como 
u; ~ N(0, 0?) (4.2.4) 


donde el símbolo ~ significa distribuido y N significa distribución normal, y donde los tér- 
minos entre paréntesis representan los dos parámetros de la distribución normal: la media y la 
varianza. 

Como se señala en el apéndice A, para dos variables normalmente distribuidas, una cova- 
rianza o correlación cero significa independencia entre las dos variables. Por consiguiente, 
con el supuesto de normalidad, la ecuación (4.2.4) significa que u; y u; no sólo no están correla- 
cionadas, sino que también están independientemente distribuidas. 

Por tanto, (4.2.4) se escribe como 


u; ~ NID(O, 0?) (4.2.5) 


donde NID significa normal e independientemente distribuido. 
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¿Por qué debe formularse el supuesto de normalidad? 
¿Por qué se emplea el supuesto de normalidad? Existen diversas razones. 


1. Como señalamos en la sección 2.5, u; representa la influencia combinada (sobre la variable 
dependiente) de un gran número de variables independientes que no se introdujeron explíci- 
tamente en el modelo de regresión. Como explicamos, se espera que la influencia de estas va- 
riables omitidas o descartadas sea pequeña y, en el mejor de los casos, aleatoria. Ahora, gracias al 
conocido teorema central del límite (TCL) en estadística (véanse los detalles en el apéndice A), 
se puede demostrar que, si existe un gran número de variables aleatorias independientes con idén- 
tica distribución, entonces, con pocas excepciones, la distribución de su suma tiende a ser normal 
a medida que se incrementa al infinito el número de tales variables.! Este teorema del límite cen- 
tral es el que proporciona una justificación teórica para el supuesto de normalidad de u;. 


2. Una variante del teorema del límite central establece que, aunque el número de variables 
no sea muy grande, o si estas variables no son estrictamente independientes, su suma puede estar 
aún normalmente distribuida.? 


3. Con el supuesto de normalidad, se derivan con facilidad las distribuciones de probabilidad 
de los estimadores de MCO, pues, como se explica en el apéndice A, una propiedad de la distri- 
bución normal es que cualquier función lineal de variables normalmente distribuidas estará 
también normalmente distribuida. Como ya analizamos, los estimadores de MCO £1 y B2 son 
funciones lineales de u;. Por consiguiente, si u; está normalmente distribuida, también lo están 6; 
y fn, lo cual hace que la tarea de probar hipótesis sea muy fácil. 


4. La distribución normal es una distribución comparativamente sencilla y requiere sólo dos 
parámetros (la media y la varianza); es muy conocida y sus propiedades teóricas se han estudiado 
con amplitud en estadística matemática. Además, al parecer muchos fenómenos se rigen por la 
distribución normal. 


5. Si trabajamos con una muestra finita o pequeña, con datos de 100 o menos observaciones, 
la suposición de normalidad desempeña un papel relevante. No sólo contribuye a derivar las 
distribuciones de probabilidad exactas de los estimadores de MCO, sino también permite utilizar 
las pruebas estadísticas t, F y x? para los modelos de regresión. Las propiedades estadísticas 
de las distribuciones estadísticas t, F y x? se estudian en el apéndice A. Como veremos en se- 
guida, si el tamaño de la muestra es razonablemente grande, se puede flexibilizar el supuesto de 
normalidad. 


6. Por último, en muestras grandes, los estadísticos t y F tienen aproximadamente las distri- 
buciones de probabilidad de t y Ẹ por lo que las pruebas £ y F que se basan en el supuesto de que 
el término de error está distribuido normalmente pueden seguir aplicándose con validez.’ En la 
actualidad hay muchos datos transversales y de series de tiempo con una cantidad relativamente 
grande de observaciones. Por tanto, el supuesto de normalidad puede no ser tan crucial en con- 
juntos grandes de datos. 


Advertencia: Como se está “imponiendo” el supuesto de normalidad, es menester encontrar 
aplicaciones prácticas que requieran tamaños pequeños de muestras en las que el supuesto de 
normalidad resulte apropiado. Más adelante se realizarán algunas pruebas para hacer precisa- 


1 Para un análisis relativamente sencillo y directo de este teorema, véase Sheldon M. Ross, Introduction to 
Probability and Statistics for Engineers and Scientists, 2a. ed., Harcourt Academic Press, Nueva York, 2000, 
pp. 193-194. Una excepción a este teorema es la distribución de Cauchy, la cual no tiene media ni momen- 
tos más altos. Véase M. G. Kendall y A. Stuart, The Advanced Theory of Statistics, Charles Griffin & Co., Lon- 
dres, 1960, vol. 1, pp. 248-249. 


2 Para las diversas formas del teorema central del límite, véase Harald Cramer, Mathematical Methods of Sta- 
tistics, Princeton University Press, Princeton, Nueva Jersey, 1946, cap. 17. 

3 Para un análisis técnico de este punto, véase Christiaan Heij et al., Econometric Methods with Applications in 
Business and Economics, Oxford University Press, Oxford, 2004, p. 197. 
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mente eso; asimismo, se presentarán situaciones en las que tal vez sea inadecuado el supuesto de 
normalidad. No obstante, hasta ese momento, consideraremos válido el supuesto de normalidad 
por las razones expuestas. 


4.3 Propiedades de los estimadores de MCO 


según el supuesto de normalidad 


Si suponemos que +; sigue la distribución normal, como en (4.2.5), los estimadores de MCO tie- 
nen las propiedades que se mencionan a continuación (el apéndice A ofrece un análisis general 
de las propiedades estadísticas deseables de los estimadores): 


1. Son insesgados. 


2. Tienen varianza mínima. En combinación con 1, esto significa que son estimadores inses- 
gados con varianza mínima, o eficientes. 


3. Presentan consistencia; es decir, a medida que el tamaño de la muestra aumenta indefini- 
damente, los estimadores convergen hacia sus verdaderos valores poblacionales. 


4, Ê ı (al ser una función lineal de u;) está normalmente distribuida con 


Media:  E(B1)=Bi (4.3.1) 
2 
a a = = = (3.3.3) (4.3.2) 


O, en forma más compacta, 
A N 2 
Êi ~ N(Br,07) 


Entonces, de acuerdo con las propiedades de la distribución normal, la variable Z, definida 
como 


m 


28 


Z (4.3.3) 


1 


sigue la distribución normal estándar, es decir, una distribución normal con media cero y va- 
rianza unitaria (= 1), o 


Z ~ N(0, 1) 


5. b2 (al ser una función lineal de u;) está normalmente distribuida con 


Media:  E(B2)= fa (4.3.4) 
2 
aa oS =7 = (3.3.1) (4.3.5) 


O, en forma más compacta, 
Ê ~ N (b2, oz ) 
Entonces, como en (4.3.3), 


ME 


o, 


Z (4.3.6) 


también sigue una distribución normal estándar. 


FIGURA 4.1 
Distribuciones de probabi- 
lidad de £; y f2. 
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Geométricamente, las distribuciones de probabilidad de Ê; y ĝz se muestran en la figura 4.1. 
6. (n — 216?/0?) está distribuida como la distribución x? (ji cuadrada), con (n — 2) gl.* 
Saber esto ayuda a hacer inferencias respecto de la verdadera o? a partir de la o? estimada, como 


veremos en el capítulo 5. (En el apéndice A se analizan la distribución ji cuadrada y sus propie- 
dades.) 


7. (8 1» 8») se distribuyen de manera independiente respecto de 6?. La importancia de lo ante- 
rior se explica en el siguiente capítulo. 


8. Ê 1y Ba tienen varianza mínima entre todas las clases de estimadores insesgados, lineales o 
no lineales. Este resultado, desarrollado por Rao, es muy eficaz porque, a diferencia del teorema 
de Gauss-Markov, no se limita a la clase de estimadores lineales.* Por tanto, se puede decir que 
los estimadores de mínimos cuadrados son los mejores estimadores insesgados (MED); es decir, 
tienen varianza mínima en toda la clase de los estimadores insesgados. 


Para resumir: lo importante es que el supuesto de normalidad permite derivar las distribu- 
ciones de probabilidad, o muestrales, de $, y f2 (ambas normales), y de 6? (relacionada con ji 
cuadrada). Como veremos en el capítulo 5, esto simplifica la tarea de establecer intervalos de 
confianza y pruebas (estadísticas) de hipótesis. 

A propósito, observe que si supone que u; ~ N(0, o°), Y;, al ser una función lineal de u;, posee 
también una distribución normal con una media y una varianza dadas por 


E(Y) = Pi + P2X; (4.3.7) 
var (Y) = 0? (4.3.8) 

En forma más ordenada, 
Y, ~ N(Bi + B2X, 0?) (4.3.9) 


% La prueba de este enunciado es un poco intrincada. Se proporciona una fuente accesible para la demostra- 
ción en la obra de Robert V. Hogg y Allen T. Craig, Introduction to Mathematical Statistics, 2a. ed., Macmillan, 
Nueva York, 1965, p. 144. 


5C, R. Rao, Linear Statistical Inference and Its Applications, John Wiley & Sons, Nueva York, 1965, p. 258. 
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4.4 Método de máxima verosimilitud (MV) 


Un método de estimación puntual con algunas propiedades teóricamente más fuertes que las del 
método de MCO es el método de máxima verosimilitud (MV). Como este método es un poco 
complicado, se analiza en el apéndice de este capítulo. Para el lector que sólo tiene un interés 
general, baste aclarar que si se supuso que u; está normalmente distribuida, como lo hemos hecho 
por las razones expuestas, los estimadores de MV y MCO de los coeficientes de regresión, los £, 
son idénticos, y esto es válido para regresiones simples al igual que para las regresiones múlti- 
ples. El estimador de MV de 0? es X ù? /n. Este estimador es sesgado, en tanto que el estimador 
de MCO de o? = » ù? /(n — 2), como vimos, es insesgado. Pero, al comparar estos dos estima- 
dores de 0?, se ve que, conforme aumenta el tamaño de la muestra n, los dos estimadores de o? 
tienden a ser iguales. Por tanto, asintóticamente (es decir, a medida que n crece indefinidamente), 
el estimador MV de o? también es insesgado. 

Como el método de mínimos cuadrados con el supuesto adicional de normalidad de u; propor- 
ciona todas las herramientas necesarias para llevar a cabo la estimación y las pruebas de hipótesis 
de los modelos de regresión lineal, no existe pérdida alguna para los lectores que no deseen conti- 
nuar revisando el método de máxima verosimilitud debido a su cierta complejidad matemática. 


Resumen y 
conclusiones 


1. En este capítulo analizamos el modelo clásico de regresión lineal normal (MCRLN). 

2. Este modelo difiere del modelo clásico de regresión lineal (MCRL) al suponer específica- 
mente que el término de perturbación, u;, que forma parte del modelo de regresión, está 
normalmente distribuido. El MCRL no requiere ningún supuesto sobre la distribución de 
probabilidad de u;; sólo requiere que el valor de la media de u; sea cero y su varianza sea una 
constante finita. 

. La justificación teórica del supuesto de normalidad es el teorema central del límite. 

4. Sin el supuesto de normalidad, según los otros supuestos analizados en el capítulo 3, el teo- 
rema de Gauss-Markov demostró que los estimadores de MCO son MELI. 

5. Con el supuesto adicional de normalidad, los estimadores de MCO no sólo son los mejores 
estimadores insesgados (MED) sino que también siguen distribuciones de probabilidad bien 
conocidas. Los estimadores de MCO del intercepto y de la pendiente están normalmente dis- 
tribuidos, y el estimador de MCO de la varianza de u; (= 6?) se relaciona con la distribución 
ji cuadrada. 

6. En los capítulos 5 y 8 veremos la utilidad de estos conocimientos para realizar inferencias 
respecto de los valores de los parámetros poblacionales. 

7. Una alternativa al método de mínimos cuadrados es el método de máxima verosimilitud 
(MV). Sin embargo, para utilizar este método se debe hacer un supuesto sobre la distribución 
de probabilidad del término de perturbación u;. En el contexto de regresión, el supuesto más 
común es que las u; siguen la distribución normal. 

8. Según el supuesto de normalidad, los estimadores de MCO y MV de los parámetros del inter- 
cepto y de la pendiente del modelo de regresión son idénticos. Sin embargo, los estimadores 
de MCO y MV de la varianza de u; son diferentes. No obstante, en muestras grandes, estos 
dos estimadores convergen. 

9. Por tanto, el método de MV suele recibir el nombre de método de muestras grandes. El mé- 
todo MV tiene una aplicación más extensa, pues se aplica también a modelos de regresión no 
lineal en los parámetros. En este último caso, MCO generalmente no se utiliza. Para mayor 
información sobre esto, véase el capítulo 14. 

10, En este texto recurriremos en gran medida al método de MCO por razones prácticas: a) 
en comparación con el de MV, el de MCO es fácil de aplicar; b) los estimadores de MV y 
MCO de 6; y f2 son idénticos (lo cual se cumple también en regresión múltiple), y c) aun en 
muestras moderadamente grandes, los estimadores de MCO y MV de 0? no difieren consi- 
derablemente. 


U 


Sin embargo, para satisfacer al lector con formación matemática, se presenta una breve intro- 
ducción al método de MV en el apéndice de este capítulo y también en el apéndice A. 
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Apéndice 4A 


4A.1 Estimación de máxima verosimilitud del modelo 
de regresión con dos variables 


Supongamos que en el modelo con dos variables Y; = 61 + 2X; + ui, las Y, son independientes y normal- 
mente distribuidas con media = B; + B2X; y varianza = o°. [Véase la ecuación (4.3.9).] Como resultado, 
la función de densidad de probabilidad conjunta de Y1, Y2, . . ., Yp, dadas las medias y varianzas anteriores, 
se escribe de la siguiente forma: 


FU), YalBr+P2X;, 07?) 


Pero dada la independencia de las Y, esta función de densidad de probabilidad conjunta se escribe como el 
producto de las n funciones de densidad individuales como 


FU), YalBr+PB2X;, 07?) 
= M1 181 F bX a NS O 181 + BX a N f(Y, 1 Br + B2X;, 0?) (1) 


donde 


(2) 


— I 1 (% — Bi -BX 
10) = 50) 2) o2 | 


que es la función de densidad de una variable normalmente distribuida con media y varianza dadas. 


(Nota: exp significa e elevado a la potencia de la expresión indicada por {}.) 
Al sustituir la ecuación (2) por cada Y; en (1) se tiene 


Po asss SS (3) 


gye 
or (y3) 2 o? 


Si se conocen o están dadas Y;, Ya, . . . , Y,, pero no se conocen 1, 62 y o°, la función en (3) se llama 
función de verosimilitud, denotada con FV(8;, 62, a?) y escrita como! 


l ap Í p e) 
o(a) 2 o2 


FV(Ba, Bo, 0?) = (4) 


El método de máxima verosimilitud, como lo indica el nombre, consiste en estimar los parámetros 
desconocidos de manera que la probabilidad de observar las Y dadas sea lo más alta (o máxima) posible. Por 
consiguiente, se tiene que encontrar el máximo de la función en la ecuación (4). Es un ejercicio sencillo de 
cálculo diferencial. Para la diferenciación, es más fácil expresar (4) en términos de la función logaritmo o 
log de la siguiente manera.? (Nota: In = logaritmo natural.) 


1 Y; = By = bX) 
InFV = —n Ino > In(27) z y ( L pX) 
Ba y U 1 (Y, — Bi — BX? 
==> Ino a In (27) > ` m (5) 


1 Por supuesto, si se conocen 61, f2 y y? pero no las Y;, la ecuación (4) representa la función de densidad 
de probabilidad conjunta: la probabilidad de observar conjuntamente las Y;. 

2 Como la función log es una función monótona, In FV alcanzará su máximo valor en el mismo punto 
que FV. 
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Al diferenciar (5) parcialmente respecto de 61, 62 y a? se obtiene 


ð In FV 1 

a Ta O A XDD (6) 
ð In FV 1 

a N Br XK) (7) 
ð In FV 1 

a (8) 


Igualamos estas ecuaciones a cero (la condición de primer orden para la optimización) y dejamos que ĝi, 
B1 y 6? denoten los estimadores de MV, para obtener” 


1 E E 
7 Y — Br — fox) =0 (9) 
ZEO hi fox Xi, =0 (10) 
1 E 2 
a (11) 


Después de simplificar, las ecuaciones (9) y (10) llevan a 
MI (12) 


A E (13) 


las cuales son precisamente las ecuaciones normales de la teoría de mínimos cuadrados obtenidas en (3.1.4) 
y (3.1.5). Por tanto, los estimadores de MV, las $, son los mismos que los estimadores de MCO, los $, dados 
en (3.1.6) y (3.1.7). Esta igualdad no es fortuita. Al examinar la verosimilitud (5) se ve que el último tér- 
mino entra con signo negativo. Por consiguiente, la maximización de (5) equivale a la minimización de este 
término, que es justo el enfoque de mínimos cuadrados, como se aprecia en (3.1.2). 

Al sustituir los estimadores de MV (= MCO) en (11) y simplificar, se obtiene el estimador de MV de 


2 así: 


O 
5? = - Y = Bi = N 
= ZET- Âi- fax)? (14) 


= Ye 


Se deduce de (14) que el estimador de MV 3? difiere del estimador de MCO ô? = [1/(n — 2312 êr, 
el cual, como se demuestra en el apéndice 3A, sección 3A.5, es un estimador insesgado de a?. Por tan- 
to, el estimador de MV de o? es sesgado. La magnitud de este sesgo se determina fácilmente de la siguiente 
manera: 


3 Se utiliza el símbolo ^ (tilde) para los estimadores de MV y ^ (acento circunflejo) para los estimadores de 
MCO. 
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Tomamos la esperanza matemática de (14) en ambos lados de la ecuación y se obtiene 


1 
E(6?) = 03 02) 
n 
—2 
= (* je con la ecuación (16) del apéndice 3A, (15) 
és sección 3A.5 
2 
=== 
n 


lo cual demuestra que 5? está sesgado hacia abajo (es decir, subestima el verdadero o°) en muestras peque- 
ñas. Pero observe que a medida que se incrementa indefinidamente n, el tamaño de la muestra, el segundo 
término en (15), factor de sesgo, tiende a ser cero. Por consiguiente, asintóticamente (es decir, en una 
muestra muy grande), 9? también es insesgada. Es decir, el lim £(5?) = o? a medida que n > oo. Se puede 
demostrar además que 5? es también un estimador consistente,* es decir, a medida que n aumenta indefini- 
damente, 6? converge hacia su verdadero valor o°. 


4A.2 Estimación de máxima verosimilitud del gasto 
en alimentos en India 


Regresemos al ejemplo 3.2 y la ecuación (3.7.2), que representa la regresión del gasto dedicado a los 
alimentos del gasto total realizado por 55 familias rurales de India. Como al suponer la normalidad, los es- 
timadores de MCO y ML de los coeficientes de regresión son iguales, los estimadores de MV resultan como 
$81 = Bı = 94.2087 y ĝ2 = B2 = 0.4368. El estimador de MCO de 0? es 4? = 4 469.6913, pero el estimador 
de MV es 6? = 4 407.1563, por lo que es más pequeño que el estimador de MCO. Como se observa, en 
muestras pequeñas el estimador de MV está sesgado hacia abajo; es decir, subestima en promedio la ver- 
dadera varianza o°. Por supuesto, como es de esperarse, conforme crezca la muestra, la diferencia entre los 
dos estimadores se reducirá. Al sustituir los valores de los estimadores en la función log de verosimilitud, 
resulta el valor de —308.1625. Si se desea maximizar el valor de FV, sólo se calcula el antilogaritmo de 
—308.1625. Ningún otro valor de los parámetros dará una probabilidad más alta de obtener la muestra que 
se utilizó en el análisis. 


Apéndice 4A Ejercicios 


4.1. “Si dos variables aleatorias son estadísticamente independientes, el coeficiente de correlación entre las 
dos es cero. Pero lo contrario no necesariamente es cierto; es decir, una correlación de cero no implica 
independencia estadística. Sin embargo, cuando dos variables están normalmente distribuidas, una 
correlación cero necesariamente implica independencia estadística.” Verifique esta afirmación para 
la siguiente función de densidad de probabilidad conjunta de dos variables normalmente distribuidas, 
Yı y Y, (esta función de densidad de probabilidad conjunta se conoce como función de densidad de 
probabilidad normal bivariada): 


1 


1 
exp 
210,071 — p? | 2(1 — p?) 
n-m) _, -u0 -m) , (L-e) 
x 2p + 5 
01 0102 O 


4 Véase el apéndice A para un análisis general de las propiedades de los estimadores de máxima verosimi- 
litud, así como para la distinción entre insesgamiento asintótico y consistencia. En términos generales, en el 
insesgamiento asintótico se trata de encontrar el lím £(5?) cuando n tiende a infinito, donde n es el tamaño 
de la muestra en la que se basa el estimador; en la consistencia, se trata de averiguar cómo se comporta 72 
a medida que n aumenta indefinidamente. Observe que la propiedad de insesgamiento es una propiedad 
del muestreo repetido de un estimador basado en una muestra de un tamaño dado, mientras que la consis- 
tencia se relaciona con el comportamiento del estimador a medida que aumenta indefinidamente el tamaño 
de la muestra. 


AOS 
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4.2. 


4.3. 


4.4. 


donde: 1; = media de Y, 
H2 = media de Y, 
o1 = desviación estándar de Yı 
o = desviación estándar de Y, 
p = coeficiente de correlación entre Y, y Y, 


Al aplicar las condiciones de segundo orden para la optimización (es decir, la prueba de la segunda de- 
rivada), demuestre que los estimadores de MV de £1, 62 y o°, que se obtienen al resolver las ecuaciones 
(9), (10) y (11), en realidad maximizan la función de verosimilitud (4). 


Una variable aleatoria X sigue la distribución exponencial si presenta la siguiente función de densidad 
de probabilidad (FDP): 
fW=(1/0e *' — paraX>0 


0) en otro caso 


donde 0 > 0 es el parámetro de la distribución. Con el método de MV demuestre que el estimador de 
MV de O es Ó = Y X;/n, donde n es el tamaño de la muestra. Es decir, demuestre que el estimador 
de MV de 0 es la media muestral X. 


Suponga que el resultado de un experimento se clasifica como un éxito o un fracaso. Sea X= 1 cuando 
el resultado es un éxito y X= 0 cuando es un fracaso; la densidad de probabilidad, o masa, función de 
X está dada por 


p(X=0)=1-=p 
pX=1)=p0<p<l 


¿Cuál es el estimador de máxima verosimilitud de p, la probabilidad de éxito? 


Capítulo 


Regresión con dos 
variables: estimación 
por intervalos y pruebas 
de hipótesis 


Cuidado con comprobar demasiadas hipótesis: cuanto más se torturen los datos, más probable será 
que confiesen, pero la confesión obtenida bajo presión puede no ser admisible en el tribunal de la 
opinión científica. 


Como señalamos en el capítulo 4, la estimación y las pruebas de hipótesis constituyen las dos 
ramas principales de la estadística clásica. La teoría de la estimación consta de dos partes: esti- 
mación puntual y estimación por intervalos. En los dos capítulos anteriores estudiamos a fondo la 
estimación puntual, en donde se introdujeron los métodos MCO y MV de la estimación puntual. 
En este capítulo consideraremos primero la estimación por intervalos y luego trataremos el tema 
de las pruebas de hipótesis, muy relacionado con la estimación por intervalos. 


5.1 Requisitos estadísticos 


Antes de exponer el mecanismo preciso para la construcción de los intervalos de confianza y de 
las pruebas de hipótesis estadísticas, se supone que el lector está familiarizado con los concep- 
tos fundamentales de probabilidad y estadística. Aunque el apéndice A no sustituye un curso 
básico de estadística, sí proporciona sus elementos esenciales con los cuales el lector deberá 
estar totalmente familiarizado. Conceptos importantes, como probabilidad, distribuciones de 
probabilidad, errores tipo I y tipo II, nivel de significancia, potencia de una prueba esta- 
dística e intervalos de confianza son cruciales para entender el material de este capítulo y los 
siguientes. 


1 Stephen M. Stigler, “Testing Hypothesis or Fitting Models? Another Look at Mass Extinctions”, en 
Matthew H. Nitecki y Antoni Hoffman, eds., Neutral Models in Biology, Oxford University Press, Oxford, 
1987, p. 148. 
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5.2 Estimación por intervalos: algunas ideas básicas 


Para poner en orden las ideas, consideremos el ejemplo de los salarios y el nivel de escolaridad 
del capítulo 3. La ecuación (3.6.1) muestra que el incremento promedio estimado del salario 
medio por hora relacionado con un año de aumento en la escolaridad (2) es de 0.7240, que 
constituye una cifra estimada (puntual) del valor poblacional desconocido 62. ¿Qué tan confiable 
es esta estimación? Como mencionamos en el capítulo 3, debido a las fluctuaciones muestra- 
les, es probable que una sola estimación difiera del valor verdadero, aunque en un mues- 
treo repetido se espera que el promedio de los valores sea igual al valor verdadero. [Nota: 
E(B») = f,.] Ahora, en estadística, la confiabilidad de un estimador puntual se mide por su error 
estándar. Por tanto, en lugar de depender de un solo estimador puntual, se puede construir un 
intervalo alrededor del estimador puntual, por ejemplo, dentro de dos o tres errores estándar a 
cada lado del estimador puntual, tal que este intervalo tenga, por ejemplo, 95% de probabilidad 
de incluir al verdadero valor del parámetro. Ésta es, a grandes rasgos, la idea básica de la esti- 
mación por intervalos. 

Para ser más específico, supongamos que se desea encontrar qué tan “cerca” está, por ejemplo, 
b de 2. Con este fin, se trata de encontrar dos números positivos, ô y o, este último situado entre 
0 y 1, de modo que la probabilidad de que el intervalo aleatorio (Ê> — 8, Ba + ô) contenga al 
verdadero ß2 sea 1 — a. Simbólicamente, 


Pr(B,—8<P,< B2+8)=1-0 (5.2.1) 


Tal intervalo, si existe, se conoce como intervalo de confianza; a 1 — q se le denomina coefi- 
ciente de confianza; y œ (0 < œ < 1) se conoce como nivel de significancia.? Los extremos del 
intervalo de confianza se conocen como límites de confianza (también denominados valores 
críticos), con Bo — ô como límite de confianza inferior y Ba + ô como límite de confianza su- 
perior. Observe que, en la práctica, œ y 1 — œ suelen expresarse en forma porcentual como 1000 
y 100(1 — 0%. 

La ecuación (5.2.1) muestra que un estimador de intervalo, en contraste con un estimador 
puntual, es un intervalo construido de manera que tenga una probabilidad específica 1 — œ de 
contener en sus límites al valor verdadero del parámetro. Por ejemplo, si æ = 0.05, o 5%, (5.2.1) 
debe leerse: la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero 
ß2 es de 0.95, o 95%. El estimador por intervalo proporciona así una gama de valores dentro de 
los cuales puede encontrarse el verdadero 6. 

Es muy importante conocer los siguientes aspectos de la estimación por intervalos: 


1. La ecuación (5.2.1) no afirma que la probabilidad de que $, se encuentre entre los límites 
dados sea 1 — œ. Como se supone que $, aunque se desconoce, es un número fijo, se dice que 
está o no está dentro del intervalo. La ecuación (5.2.1) establece que, al utilizar el método des- 
crito en este capítulo, la probabilidad de construir un intervalo que contenga fz es 1 — q. 


2. El intervalo (5.2.1) es un intervalo aleatorio; es decir, variará de una muestra a la siguiente 
debido a que se basa en £>, el cual es aleatorio. (¿Por qué?) 


3. Como el intervalo de confianza es aleatorio, los enunciados probabilísticos que le corres- 
ponden deben entenderse en un sentido de largo plazo, es decir, para muestreo repetido. Más 


2 También conocida como probabilidad de cometer un error tipo I. Un error tipo | consiste en recha- 
zar una hipótesis verdadera, mientras que el error tipo Il consiste en aceptar una hipótesis falsa. (Este tema 
se analiza con mayor detalle en el apéndice A.) El símbolo œ se conoce también como tamaño de la 
prueba (estadística). 


5.3 Intervalos 
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especificamente, (5.2.1) significa: si se construyen muchos intervalos de confianza como el an- 
terior con base probabilística de 1 — «, a la larga, en promedio, tales intervalos contendrán, en 
1 — q de los casos, el valor verdadero del parámetro. 


4. Como mencionamos en 2, el intervalo (5.2.1) es aleatorio siempre y cuando Ê sea desco- 
nocido. Sin embargo, una vez que se tenga una muestra especifica y se obtenga un valor numérico 
específico de 8», el intervalo (5.2.1) deja de ser aleatorio, y queda entonces fijo. En este caso, 
no se puede hacer la afirmación probabilística (5.2.1); es decir, no se puede afirmar que la pro- 
babilidad de que un intervalo fijo dado incluya al verdadero $) sea 1 — œ. En esta situación, 2 
está en el intervalo fijo o fuera de él. Por consiguiente, la probabilidad será 1 o 0. Por tanto, en el 
ejemplo de salarios y nivel de escolaridad, si el intervalo de confianza a 95% se obtuviera como 
(0.5700 < f2 < 0.8780), como demostraremos en breve en la ecuación (5.3.9), no se puede 
afirmar que la probabilidad de que este intervalo incluya al verdadero $, sea de 95%. Esa proba- 
bilidad es 1 o 0. 


¿Cómo se construyen los intervalos de confianza? De la exposición anterior se espera que 
si se conocen las distribuciones muestrales o de probabilidad de los estimadores, se puedan 
hacer afirmaciones sobre intervalos de confianza como (5.2.1). En el capítulo 4 vimos que, con el 
supuesto de normalidad de las perturbaciones u;, los estimadores de MCO Bi y Ê» están también 
normalmente distribuidos, y que el estimador de MCO, ĉ?, se relaciona con la distribución x? 
(ji cuadrada). Entonces, parece que la labor de construir intervalos de confianza es muy sencilla. 
iY, de hecho, lo es! 


de confianza para los coeficientes de regresión 1 y PB2 


Intervalo de confianza para f2 

En el capítulo 4, sección 4.3, demostramos que con el supuesto de normalidad de u,, los estima- 
dores de MCO Ê 1y Ê son en sí mismos normalmente distribuidos con medias y varianzas allí 
establecidas. Por consiguiente, por ejemplo, la variable 


E Ê- Ba 

se (a) (5.3.1) 
(Êz — BJ) x? 
A 


como se anotó en (4.3.6), es una variable normal estandarizada. Por tanto, parece que se puede 
utilizar la distribución normal para hacer afirmaciones probabilísticas sobre B,, siempre que se 
conozca la verdadera varianza poblacional o°. Si se conoce o°, una propiedad importante de una 
variable normalmente distribuida con media y y varianza 0? es que el área bajo la curva normal 
entre u + ø es cercana a 68%, que entre u + 20 es alrededor de 95%, y que entre los límites 
u + 30 el área es cercana a 99.7%. 

Pero pocas veces se conoce o? y, en la práctica, está determinada por el estimador insesgado 
ĉ?. Si se reemplaza o por ó, (5.3.1) puede escribirse así 


f Bo — Ba Estimador — Parámetro 


se (f2) — Error estándar estimado del estimador (5.3.2) 


B (Ba — Ba), X x? 


o 
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donde ee (Ba) se refiere ahora al error estándar estimado. Se demuestra (véase el apéndice 5A, 
sección 5A.2) que la variable £, así definida, sigue la distribución £ con n — 2 gl. [Note la diferen- 
cia entre (5.3.1) y (5.3.2).] Por consiguiente, en lugar de utilizar la distribución normal, se puede 
utilizar la distribución f para construir un intervalo de confianza para f2 de la siguiente forma: 


Pr (faja <t < tapo) = 10 (5.3.3) 


donde el valor ż en el centro de esta doble desigualdad es el valor £ dado por (5.3.2), y donde ta/2 
es el valor de la variable £ obtenida de la distribución ź para un nivel de significancia de œ/2 y 
n — 2 gl; a menudo se denomina el valor crítico £ a un nivel de significancia œ/2. Al sustituir 
(5.3.2) en (5.3.3) se obtiene 


Pr | —ta/2 < pa < tap|=1-0u (5.3.4) 
ee (2) 
Reorganizamos (5.3.4) y obtenemos 
Pr [b> — faja ee (Ê) < Pa < Ê> + tap ee (Ê)] = 1 — a (5.3.5)? 


La ecuación (5.3.5) proporciona un intervalo de confianza para £z de 100 (1 — &œ)%, que se 
escribe en forma más compacta como 


Intervalo de confianza para $2 a 100(1 — œ)%: 


A 


$2 taja ee(B2) (5.3.6) 


Mediante argumentación análoga y con (4.3.1) y (4.3.2), se escribe: 


Pr [Îi — tajo ee ($1) < Bi < Êi + tap ee (Ê1)] = 1 — a (5.3.7) 


o, en forma más compacta, 


Intervalo de confianza para £; a 100(1 — œ)%: 


Êi + taj2 ee (Ê1) (5.3.8) 


Observe un rasgo importante de los intervalos de confianza dados en (5.3.6) y (5.3.8): en 
ambos casos la amplitud del intervalo de confianza es proporcional al error estándar del estima- 
dor. Es decir, entre más grande sea el error estándar, más amplio será el intervalo de confianza. 
Expresado de otra forma, mientras más grande sea el error estándar del estimador, mayor será la 
incertidumbre de estimar el verdadero valor del parámetro desconocido. Así, el error estándar de 
un estimador suele describirse como una medida de la precisión del estimador (es decir, con qué 
precisión mide el estimador al verdadero valor poblacional). 


3 Algunos autores prefieren escribir (5.3.5) con los gl indicados explícitamente. Por tanto, escribirían 
Pr [$2 — tin-2),a/2 €€ (2) < Ba < Ê2 + tn-2)a/2 e€ (ĝ2)] = 1 — œ 
Pero, por simplicidad, utilizaremos la notación hasta ahora expuesta; el contexto aclara los gl adecuados. 
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De vuelta al ejemplo de regresión del capítulo 3 (sección 3.6) del salario promedio por hora 
(Y) y el nivel de escolaridad (A), recuerde que en la tabla 3.2 descubrimos que fz = 0.7240; 
ee (62) = 0.0700. Como hay 13 observaciones, los grados de libertad (gl) son 11. Si suponemos 
que œ = 5%, es decir, un coeficiente de confianza a 95%, entonces la tabla £ muestra que para 
11 gl el valor crítico t,/, = 2.201. Al sustituir estos valores en (5.3.5), el lector debe verificar que 
el intervalo de confianza para f, a 95% sea el siguiente:? 


0.5700 < £2 < 0.8780 (5.3.9) 
O, con la ecuación (5.3.6), es 
0.7240 + 2.201(0.0700) 
es decir, 


0.7240 + 0.1540 (5.3.10) 


La interpretación de este intervalo de confianza es: Dado el coeficiente de confianza de 95%, 
en 95 de cada 100 casos, los intervalos como la ecuación 5.3.9 contendrán al verdadero valor de 
ß2. Pero, como ya advertimos, no se puede afirmar que la probabilidad de que el intervalo espe- 
cífico de la ecuación (5.3.9) contenga al verdadero f2 sea de 95%, porque este intervalo es ahora 
fijo y no aleatorio; por consiguiente, $2 se encontrará o no dentro de él: la probabilidad de que el 
intervalo fijo específico incluya al verdadero valor de $) es por consiguiente 1 o 0. 

Según la ecuación (5.3.7) y los datos de la tabla 3.2, el lector puede verificar fácilmente que el 
intervalo de confianza para fı a 95% en este ejemplo es: 


—1.8871 < B¡ < 1.8583 (5.3.11) 


Una vez más, se debe tener cuidado al interpretar este intervalo de confianza. En 95 de cada 
100 casos, los intervalos como la ecuación (5.3.11) contendrán al verdadero valor de 61; la pro- 
babilidad de que este intervalo fijo en particular incluya al verdadero $; es de 1 0 0. 


Intervalo de confianza para $1 y $2 simultáneamente 

Hay ocasiones en que se necesita construir un intervalo de confianza conjunto para ßı y f2 tal 
que, para un coeficiente de confianza (1 — œ) de, por ejemplo, 95%, tanto $ como f2 caigan 
al mismo tiempo dentro de ese intervalo. Como este tema es complejo, el lector quizá desee con- 
sultar referencias apropiadas.* (Estudiaremos brevemente este tema en los capítulos 8 y 10.) 


5.4 Intervalo de confianza para 0? 


Como señalamos en el capítulo 4, sección 4.3, según el supuesto de normalidad, la variable 


2 0? 
X == (5.4.1) 


4 Debido a errores de redondeo en la tabla 3.2, las respuestas que se proporcionan a continuación pueden 
no coincidir exactamente con las obtenidas mediante un paquete estadístico. 

5 Hay un análisis accesible en John Neter, William Wasserman y Michael H. Kutner, Applied Linear Regression 
Models, Richard D. Irwin, Homewood, Illinois, 1983, capítulo 5. 
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FIGURA 5.1 
Intervalo de confianza a 
95% para x? (11 gl). 


103) 


Densidad 


X2 


3.8157 21.9200 


2 2 
X0.975 Xo0.025 


sigue la distribución x? con n — 2 gl.* Por tanto, con la distribución x? se establece el intervalo 
de confianza para o? 


Pr (xao S X < xi) =1 a (5.4.2) 


donde el valor de x? en medio de esta doble desigualdad es igual a la planteada en (5.4.1), y donde 
Xi_-a/2 Y Xan Son dos valores de x? (los valores críticos x°) obtenidos de la tabla ji cuadrada para 
n — 2 gl de manera que ellos cortan 100(a/2)% de las áreas de las colas de la distribución x?, 
como se muestra en la figura 5.1. 

Al sustituir x? de (5.4.1) en (5.4.2) y reorganizar los términos, obtenemos 


G? ô? 
Pr| (n= 2) < 0° < (n= 2)— =1-a (5.4.3) 
Xo/2 Xi-a/2 


que da el intervalo de confianza a 100(1 — œ)% para o°. 

Continuamos con el ejemplo de salarios y nivel de escolaridad: se encontró en la tabla 3.2 
que para los datos se tiene 4? = 0.8936. Si seleccionamos œ de 5%, la tabla ji cuadrada para 11 
gl da los siguientes valores críticos: Xx¿ 925 = 21.9200 y X¿o75 = 3.8157. Estos valores muestran 
que la probabilidad de que un valor ji cuadrada sea superior a 21.9200 es 2.5%, y la de 3.8157 es 
97.5%. Por consiguiente, el intervalo entre estos dos valores es el intervalo de confianza para x? 
a 95%, como se aprecia en el diagrama de la figura 5.1. (Observe la característica asimétrica de 
la distribución ji cuadrada.) 

Al sustituir los datos del ejemplo en (5.4.3), el lector verificará que el intervalo de confianza 
para 0? a 95% es el siguiente: 


0.4484 < o? < 2.5760 (5.4.4) 


La interpretación de este intervalo es la siguiente: Si establecemos limites de confianza a 95% 
sobre o? y afirma a priori que entre estos límites caerá el verdadero o°, acertaremos, a la larga, 
95% de las veces. 


é Para una demostración, véase Robert V. Hogg y Allen T. Craig, Introduction to Mathematical Statistics, 
2a. ed., Macmillan, Nueva York, 1965, p. 144. 
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5.5 Prueba de hipótesis: comentarios generales 


Tras estudiar el problema de la estimación puntual y por intervalos, ahora consideraremos el tema 
de las pruebas de hipótesis. En esta sección analizaremos brevemente algunos aspectos genera- 
les de este tema; el apéndice A proporciona algunos detalles adicionales. 

El problema de las pruebas de hipótesis estadísticas puede plantearse sencillamente de la si- 
guiente manera: ¿es compatible o no lo es una observación o un hallazgo dados, según algunas 
hipótesis planteadas? La palabra “compatible” se utiliza aquí en el sentido de que la observación 
es lo “bastante” cercana al valor hipotético, de forma que no se rechaza la hipótesis planteada. 
Así, si alguna teoría o experiencia previa lleva a creer que el verdadero coeficiente de la pendiente 
b2 en el ejemplo salarios y nivel de escolaridad es la unidad, ¿es el $2 = 0.724 obtenido de la 
muestra de la tabla 3.2 consistente con la hipótesis planteada? De ser así, no se rechaza la hipó- 
tesis; de lo contrario, se puede rechazar. 

En el lenguaje de estadística, la hipótesis planteada se conoce como hipótesis nula, y se denota 
con el símbolo Ho. La hipótesis nula suele probarse frente a una hipótesis alternativa (también co- 
nocida como hipótesis mantenida) denotada con H4, que puede plantear, por ejemplo, que el 
verdadero $, es diferente a la unidad. La hipótesis alternativa puede ser simple o compuesta.” 
Por ejemplo, H1:62 = 1.5 es una hipótesis simple, pero H1:62 Æ 1.5 es una hipótesis compuesta. 

La teoría de pruebas de hipótesis se refiere al diseño de reglas o procedimientos que permitan 
decidir si se rechaza o no la hipótesis nula. Hay dos métodos mutuamente complementarios para 
diseñar tales reglas: el intervalo de confianza y la prueba de significancia. Estos dos enfoques 
plantean que la variable (el estadístico o estimador) en consideración sigue alguna distribución 
de probabilidad y que la prueba de hipótesis establece afirmaciones sobre el (los) valor(es) del 
(los) parámetro(s) de tal distribución. Por ejemplo, sabemos que, con el supuesto de normalidad, 
$» está normalmente distribuida con media igual a £2 y varianza dada por (4.3.5). Si formulamos 
la hipótesis de que £2 = 1, se hace una afirmación sobre uno de los parámetros de la distribución 
normal, por ejemplo, la media. La mayoría de las hipótesis estadísticas que se encuentran en este 
texto será de este tipo, con afirmaciones sobre uno o más valores de los parámetros de algunas 
distribuciones de probabilidad supuestas, como la normal, F, t o x?. En las dos secciones siguien- 
tes estudiaremos la forma de lograrlo. 


5.6 Pruebas de hipótesis: método del intervalo de confianza 


Prueba bilateral o de dos colas 


Para ilustrar el enfoque del intervalo de confianza, una vez más nos referiremos al ejemplo 
de salarios y nivel de escolaridad. Por los resultados de la regresión obtenidos en la ecuación 
(3.6.1), sabemos que el coeficiente de pendiente es 0.7240. Supongamos que se postula que 


Ho: B2 = 0.5 
Hi: Ba 40.5 


es decir, el verdadero coeficiente de la pendiente es 0.5 según la hipótesis nula, pero menor o 
mayor que 0.5 según la hipótesis alternativa. La hipótesis nula es una hipótesis simple, mientras 


7 Una hipótesis estadística se denomina hipótesis simple si especifica el(los) valor(es) preciso(s) del(los) 
parámetro(s) de una función de densidad de probabilidad (fdp); de lo contrario, se llama hipótesis com- 
puesta. Por ejemplo, en la fdp normal (1/4/27) exp Ja — 1) /01?), si afirmamos que Hy:u y o = 2, se 
trata de una hipótesis simple; pero si H¡:u = 15 y ø > 15, es una hipótesis compuesta, porque la desviación 
estándar no tiene un valor específico. 
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FIGURA 5.2 


Intervalo de confianza 
para 2 a 100(1 — 0%. 
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que la hipótesis alternativa es compuesta; y, en la práctica, se conoce como hipótesis bilateral. 
Con mucha frecuencia, dicha hipótesis alternativa bilateral refleja el hecho de que no se tiene 
una expectativa a priori o teórica sólida sobre la dirección en la cual debe moverse la hipótesis 
alternativa respecto de la hipótesis nula. 

¿Es el $ observado compatible con Hp? Para responder, consultemos el intervalo de confianza 
(5.3.9). Sabemos que, a la larga, los intervalos como (0.5700, 0.8780) contendrán al verdadero 
ß2 con una probabilidad de 95%. En consecuencia, a la larga (es decir, en muestreo repetido), 
tales intervalos proporcionan un recorrido o límites dentro de los cuales puede encontrarse el 
verdadero $2 con un coeficiente de confianza de 95%. Así, el intervalo de confianza proporciona 
un conjunto de hipótesis nulas posibles. Por consiguiente, si el $2 en Ho se encuentra dentro del 
intervalo de confianza 100(1 — œ)%, no se rechaza la hipótesis nula; si se encuentra por fuera 
del intervalo, se puede rechazar.* Este intervalo se ilustra esquemáticamente en la figura 5.2. 


Regla de decisión 


Construya un intervalo de confianza para 62 a 100(1 — &œ)%. Si el 62 en Ho se encuentra dentro 
de este intervalo de confianza, no rechace Ho, pero si está fuera del intervalo, rechace Ho. 


Según esta regla, para el ejemplo hipotético, es claro que Ho: 82 = 0.5 se encuentra fuera del 
intervalo de confianza a 95% dado en (5.3.9). Por consiguiente, rechazamos la hipótesis de que la 
verdadera pendiente sea 0.5, con 95% de confianza. Si la hipótesis nula fuera cierta, la probabili- 
dad de obtener por casualidad un valor de pendiente igual a 0.7240 es, como máximo, alrededor 
de 5%, una probabilidad pequeña. 

En estadística, cuando se rechaza la hipótesis nula, se dice que el hallazgo es estadística- 
mente significativo. Por otra parte, cuando no se hace, se dice que el resultado no es estadísti- 
camente significativo. 

Algunos autores utilizan frases como “muy significativo desde un punto de vista estadístico”. 
Con este término, por lo general se refieren a que, cuando rechazan la hipótesis nula, la probabi- 
lidad de cometer un error tipo I (por ejemplo, œ) es un número pequeño, usualmente 1%. Pero, 
como demostrará el análisis del valor p en la sección 5.8, es mejor dejar que el investigador 
califique el hallazgo estadístico como “significativo”, “moderadamente significativo” o “muy 
significativo”. 


8 Siempre tenga en mente que hay una posibilidad de 1004 de que el intervalo de confianza no contenga 
a B2 en Ho aunque la hipótesis esté correcta. En pocas palabras, hay una posibilidad de 1004 de cometer 
un error tipo l. Así, si œ = 0.05, hay una posibilidad de 5% de rechazar la hipótesis nula aunque sea 
verdadera. 
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Prueba unilateral o de una cola 

Algunas veces tenemos una expectativa a priori o teórica sólida (o existen expectativas basadas 
en algún trabajo empírico previo) de que la hipótesis alternativa es unilateral o unidireccional, en 
lugar de ser bilateral o de dos colas, como acabamos de analizar. Así, para el ejemplo de los 
salarios y el nivel de escolaridad, se puede postular que 


Ho:B2S0.5 y  Hi:fB2>0.5 
Quizá la teoría económica o el trabajo empírico previo indiquen que la pendiente es mayor que 


0.5. Aunque el procedimiento para probar esta hipótesis se deriva fácilmente de (5.3.5), se ex- 
plica mejor el mecanismo real en términos del método de prueba de significancia siguiente.’ 


5.7 Pruebas de hipótesis: enfoque de la prueba de significancia 


Prueba de significancia de los coeficientes de regresión: 
la prueba t 
Un enfoque alterno pero complementario al de intervalos de confianza para probar hipótesis 
estadísticas es el método de la prueba de significancia, desarrollado en forma independiente 
por R. A. Fisher y conjuntamente por Neyman y Pearson.'* En términos generales, una prueba 
de significancia es un procedimiento que utiliza los resultados muestrales para verificar la 
verdad o falsedad de una hipótesis nula. La idea básica de las pruebas de significancia es la de 
un estadístico de prueba (un estimador) y su distribución muestral según la hipótesis nula. La 
decisión de aceptar o rechazar Ho se toma con base en el valor del estadístico de prueba obtenido 
con los datos disponibles. 

Como ilustración, recuerde que, según el supuesto de normalidad, la variable 


y Ê- Bo 
ee ($2) 
(AB Ex 


(og 


(5.3.2) 


sigue la distribución £ con n — 2 gl. Si el valor del verdadero $ se especifica con la hipótesis 
nula, el valor £ de (5.3.2) se calcula fácilmente a partir de la muestra disponible y, por consi- 
guiente, sirve como estadístico de prueba. Y como este estadístico de prueba sigue una distribu- 
ción £, caben afirmaciones sobre los intervalos de confianza como la siguiente: 


px 
Pr o < a < en =1l-0u (5.7.1) 


donde £ž es el valor de £2 en Ho y —ta/2 y tan son los valores de £ (los valores críticos de £) obte- 
nidos de la tabla £ para un nivel de significancia (œ/2) y n — 2 gl [cf. (5.3.4)]. La tabla £ está en 
el apéndice D. 


? Si desea utilizar el método de intervalos de confianza, elabore un intervalo de confianza unilateral o de una 
cola para £2 a (100 — a)%. ¿Por qué? 
10 Hay detalles en E. L. Lehman, Testing Statistical Hypotheses, John Wiley & Sons, Nueva York, 1959. 
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FIGURA 5.3 
Intervalo de confianza a 
95% para Êz según la hi- 
pótesis de que B, = 0.5. 


Reorganizamos (5.7.1) para obtener 


Pr [83 — tajo ee(B2) < Ba < Pi + tap ee (ĝ2)] = 1-0 (5.7.2) 


que da el intervalo en el cual se encontrará B» con probabilidad 1 — œ, dado 62 = £3. En el len- 
guaje de pruebas de hipótesis, el intervalo de confianza a 100(1 — a)% establecido en (5.7.2) se 
conoce como la región de aceptación (de la hipótesis nula), y la(s) región(es) que queda(n) fuera 
del intervalo de confianza se llama(n) región(es) de rechazo (de Hp) o región(es) crítica(s). 
Como ya mencionamos, los límites de confianza dados por los puntos extremos del intervalo de 
confianza se llaman también valores críticos. 

Ahora se aprecia la estrecha conexión entre los enfoques de intervalo de confianza y prueba 
de significancia para realizar pruebas de hipótesis al comparar (5.3.5) con (5.7.2). En el procedi- 
miento de intervalo de confianza se trata de establecer un rango o intervalo que tenga una proba- 
bilidad determinada de contener al verdadero aunque desconocido £2, mientras que en el enfoque 
de prueba de significancia se somete a hipótesis algún valor de 82 y se ve si el $, calculado se 
encuentra dentro de límites (de confianza) razonables alrededor del valor sometido a hipótesis. 

Veamos de nuevo el ejemplo de los salarios y el nivel de escolaridad. Sabemos que B> = 
0.7240, ee (Êz) = 0.0700 y gl = 11. Si suponemos a = 5%, ta = 2.201. 

Si suponemos que Ho: 62 = 63 = 0.5 y Hı: B2 Æ 0.5, (5.7.2) se convierte en 


Pr (0.3460 < $2 < 0.6540) 573" 


como se muestra en el diagrama de la figura 5.3. 

En la práctica, no hay necesidad de estimar (5.7.2) explícitamente. Se calcula el valor de £ del 
centro de la doble desigualdad dada en (5.7.1) y se ve si cae entre los valores críticos £ o fuera de 
ellos. Para el ejemplo, 


0.7240 — 0.5 
= == =32 5.7.4 
0.0700 j ( ) 


valor que con claridad se encuentra en la región crítica de la figura 5.4. La conclusión se man- 
tiene; es decir, rechazamos Ho. 


FB2) 

ge 

E 

£ Êz = 0.7240 

A se encuentra 
Región en esta región 
crítica crítica de 
2.5% 2.5% 


0.3460 0.5 0.6540 


11 En la sección 5.2, punto 4, se afirmó que no se puede decir que la probabilidad de que el intervalo fijo 
(0.4268, 0.5914) incluya el verdadero £2, sea de 95%. Pero sí se puede hacer la afirmación probabilística 
dada en (5.7.3) porque £z, al ser un estimador, es una variable aleatoria. 


FIGURA 5.4 
Intervalo de confianza a 
95% para £(11 gl). 
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fO 
E 
© t=32 
5 Región de se encuentra 
A Región aceptación en esta región 
crítica de 95% crítica de 
2.5% 2.5% 


-2.201 0 +2.201 


Observe que si el 62 (= B2) estimado es igual al 6, hipotético, el valor £ en (5.7.4) será cero. 
Sin embargo, en la medida en que el valor de $, estimado se aleje del valor hipotético de 62, el 
[2] (es decir, el valor absoluto de t; nota: t puede ser positivo o negativo) será cada vez mayor. Por 
consiguiente, un valor “grande” de |t| será evidencia en contra de la hipótesis nula. Siempre se 
puede utilizar la tabla ź para determinar si un valor t particular es grande o pequeño; la respuesta, 
como sabemos, depende de los grados de libertad igual que de la probabilidad del error tipo I 
que estemos dispuestos a aceptar. Como se observa en la tabla £ del apéndice D (tabla D.2), para 
cualquier valor dado de gl, la probabilidad de obtener un valor de |£] cada vez mayor es progresi- 
vamente menor. Por tanto, para 20 gl, la probabilidad de obtener un valor |t| mayor o igual a 1.725 
es 0.10 o 10%, pero para los mismos gl, la probabilidad de obtener un valor |] mayor o igual a 
3.552 es tan sólo 0.002, o 0.2%. 

Como utilizamos la distribución f, el anterior procedimiento de prueba se llama, apropiada- 
mente, prueba £. En el lenguaje de las pruebas de significancia, se dice que un estadístico es 
estadísticamente significativo si el valor del estadístico de prueba cae en la región crítica. 
En este caso, se rechaza la hipótesis nula. De la misma manera, se dice que una prueba no es 
estadísticamente significativa si el valor del estadístico de prueba cae en la región de acepta- 
ción. En esta situación, no se rechaza la hipótesis nula. En el ejemplo, la prueba + es significativa 
y por tanto se rechaza la hipótesis nula. 

Antes de concluir la exposición de pruebas de hipótesis, observe que este procedimiento de 
prueba se conoce como procedimiento de las pruebas de significancia bilaterales, o de dos colas, 
pues se consideran las dos colas extremas de la distribución de probabilidad relevante, las regio- 
nes de rechazo, y se rechaza la hipótesis nula si cae en cualquiera de ellas. Esto sucede porque la 
H; era una hipótesis compuesta de dos lados; $, Æ 0.5 significa que £2 es mayor o menor que 0.5. 
Sin embargo, supongamos que la experiencia indica que la pendiente es mayor que 0.5. En este 
caso tenemos: Ho: B2 < 0.5 y H¡:B, > 0.5. Aunque H; es aún una hipótesis compuesta, ahora es 
unilateral. Para probar esta hipótesis se utiliza una prueba de una cola (la cola derecha), como 
se ve en la figura 5.5. (Véase también el análisis en la sección 5.6.) 

El procedimiento de prueba es similar al anterior excepto que el límite de confianza superior 
o valor crítico corresponde ahora a ty = to.os, es decir, al nivel de 5%. Como indica la figura 5.5, 
en este caso no es preciso considerar la cola inferior de la distribución f. La utilización de una 
prueba de significancia de una o dos colas dependerá de la forma como se formule la hipótesis 
alternativa, la cual, a su vez, puede depender de algunas consideraciones a priori o de experiencia 
empírica previa. (Otras consideraciones se dan en la sección 5.8.) 

En la tabla 5.1 se presenta un resumen del método de la prueba £ de significancia para pruebas 
de hipótesis. 
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FIGURA 5.5 


Prueba de significancia de 
una cola. 


TABLA 5.1 

La prueba ź de signi- 
ficancia: reglas de 
decisión 


[(B2) 
3 A 
6- Región de B2 = 0.7240 
3 aceptación se encuentra 
a de 95% en esta región 
crítica de 
2.5% 


B> 
0.5 0.6257 
Su Ñ 
3 + 1.796 ee 
O) [83 ze (B2)1 
y 
[5] 
© 
102) . z 
S Región de 1=32 
A aceptación se encuentra 
de 95% a 
en esta región 
crítica de 
5% 
t 
0 R 
toos (11 el) 
Tipo de Ho: hipótesis Hı: hipótesis Regla de decisión: 
hipótesis nula alternativa rechazar Ho si 
Dos colas B2=83 bo + B3 ea 
Cola derecha b2 < B b2 > B3 > gj 
Cola izquierda B2> B3 Ba < B3 t < —tog 


Notas: 63 es el valor numérico hipotético de Ba. 
|£| significa el valor absoluto de t. 
fa O t, ¡2 Significa el valor crítico de t al nivel de significancia œ o œ/2. 


gl: grados de libertad, (n — 2) para el modelo con dos variables, (n — 3) para el modelo con tres variables, y así 
sucesivamente. 


Para probar hipótesis sobre $, se sigue un procedimiento similar. 


Prueba de significancia de o°: la prueba x? 


Como otro ejemplo de la metodología de las pruebas de significancia, considere la siguiente 
variable: 
42 
L=an-)Z (5.4.1) 
(0 


la cual, como ya mencionamos, sigue una distribución x? con n — 2 gl. Para el ejemplo hipo- 
tético, 6? = 0.8937 y gl = 11. Si se postula que Ho: o? = 0.6 frente a H;:0? Æ 0.6, la ecua- 
ción (5.4.1) proporciona el estadístico de prueba para Ho. Al sustituir los valores apropiados en 
(5.4.1), se descubre que, con Ho, x? = 16.3845. Si suponemos que œ = 5%, los valores críticos x? 


TABLA 5.2 


Resumen de la prueba 


X 


2 
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Ho: hipótesis Hi: hipótesis Región crítica: 
nula alternativa rechazar Ho si 
22 
2 2 2 2 gl(ó*) 2 
0 = 0 0> 00 > Keg 
00 s 
22 
O O JEI 2 
0%=00 0%<00 2 < Xd-0)9l 
00 
(6?) 
2 2 g 2 
02?=0% 040% 03 > Xa/2,gl 


2 
O < X(1-a/2),gl 


Nota: o? es el valor de ø? según la hipótesis nula. El primer subíndice asociado a x? en la última columna es el nivel 
de significancia, en tanto que el segundo indica los grados de libertad. Éstos son los valores críticos ji cuadrada. Obser- 
ve que, si el modelo de regresión es de dos variables, los gl son (n — 2), si el modelo de regresión es de tres variables 
son (n — 3) y así sucesivamente. 


son 3.81575 y 21.9200. Como el valor x? calculado cae dentro de estos límites, los datos apoyan 
la hipótesis nula y no la rechazamos. (Véase la figura 5.1.) Este procedimiento de prueba se de- 
nomina prueba de significancia ji cuadrada. El método de la prueba de significancia x? para la 
prueba de hipótesis se resume en la tabla 5.2. 


5.8 Prueba de hipótesis: algunos aspectos prácticos 


Significado de “aceptar” o “rechazar” una hipótesis 

Si, con base en una prueba de significancia, por ejemplo, la prueba £, decidimos “aceptar” la hi- 
pótesis nula, todo lo que se afirma es que, con base en la evidencia dada por la muestra, no existe 
razón para rechazarla; no se sostiene que la hipótesis nula sea verdadera con absoluta certeza. 
¿Por qué? Para responder esto, regresemos al ejemplo de los salarios y los niveles de escolaridad 
y supongamos que Ho: $2 = 0.70. Ahora, el valor estimado de la pendiente es B2=0.7241 con un 


A 0.7241 — 0.7 
ee (62) = 0.0701. En seguida, con base en la prueba í, se obtiene que t = RA = 0,3438, 


que no es significativo, por ejemplo, en œ = 5%. Por consiguiente, se dice que “aceptamos” 
Hp. Pero ahora supongamos que Ho: 2 = 0.6. Al aplicar de nuevo la prueba £, se obtiene t = 
(0.7241 — 0.6) 
0.0701 
dice que “aceptamos” esta Ho. ¿Cuál de estas dos hipótesis nulas es la “verdadera”? No sabemos. 
Por consiguiente, al “aceptar” una hipótesis nula siempre se debe tener presente que puede existir 
otra hipótesis nula igualmente compatible con los datos. Es preferible, por tanto, decir que se 
puede aceptar la hipótesis nula en lugar de decir que la aceptamos. Mejor aún, 


= 1.7703, que tampoco es estadísticamente significativo. Entonces, ahora se 


...de la misma manera que en un tribunal se pronuncia un veredicto de “no culpable” en lugar de 
decir “inocente”, así la conclusión de una prueba estadística es la de “no rechazar” en lugar de “acep- 
tar” 2 


12 Jan Kmenta, Elements of Econometrics, Macmillan, Nueva York, 1971, p. 114. 
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Hipótesis nula “cero” y regla práctica “2t” 
La hipótesis nula que es objeto frecuente de prueba en el trabajo empírico es Hp: B, = 0, es decir, 
el coeficiente de la pendiente es cero. Esta hipótesis nula de “cero” es un mecanismo para esta- 
blecer si Y tiene relación con X, la variable explicativa. Si, para empezar, no existe relación entre 
Y y X, entonces no tiene caso probar una hipótesis como $, = 0.3 o cualquier otro valor. 

Esta hipótesis nula se prueba fácilmente con los enfoques de intervalos de confianza o prueba 
t estudiados en las secciones anteriores. Pero, con mucha frecuencia, tales pruebas formales se 
abrevian con la regla de significancia “2f”, que puede expresarse así: 


Regla práctica 
“Df 39 


Si el número de grados de libertad es 20 o más, y si œ, el nivel de significancia, se fija en 0.05, 
se rechaza la hipótesis nula 2 = 0 si el valor de t [ = ĝ2/ee (B2)] calculado a partir de (5.3.2) 
es superior a 2 en valor absoluto. 


El razonamiento de esta regla no es muy difícil. De (5.7.1) se sabe que rechazaremos 
Ho: Ba =0si 


t= Êz /ee (2) > la) cuando Ba >0 


t= Ê2/ee (Ba) < —ta/2 cuando Ê <0 


o cuando 


> ta)2 (5.8.1) 


para los grados de libertad apropiados. 

Ahora, si examinamos la tabla £ del apéndice D, se ve que, para gl alrededor de 20 o más, 
un valor calculado £ mayor que 2 (en términos absolutos), por ejemplo, 2.1, es estadísticamente 
significativo al nivel de 5%, lo cual implica rechazo de la hipótesis nula. Por consiguiente, si se 
descubre que para 20 o más gl el valor £ calculado es 2.5 o 3, ni siquiera hay que consultar la tabla 
t para asegurar la significancia del coeficiente de la pendiente estimada. Por supuesto, siempre 
puede consultar la tabla £ para obtener el nivel preciso de significancia. Sin embargo, esto debe 
hacerse siempre que los gl sean inferiores a, por ejemplo, 20. 

A propósito, observe que si se está probando la hipótesis unilateral 62 = 0 respecto de 62 > 0 
o f2 < 0, se debe rechazar la hipótesis nula si 


A 


Ba 


ee (ĝ2) 


> lo (5.8.2) 


Si fijamos « en 0.05, en la tabla £ se observa que, para 20 o más gl, un valor t mayor que 1.73 es 
estadísticamente significativo al nivel de significancia de 5% (de una cola). Por tanto, siempre 
que un valor t exceda, por ejemplo, de 1.8 (en términos absolutos) y los gl sean 20 o más, no es 
necesario consultar la tabla £ para la significancia estadística del coeficiente observado. Es claro 
que, si se escoge œ igual a 0.01 o cualquier otro nivel, habrá que decidir sobre el valor apropiado 
de £ como valor crítico de referencia. Pero a estas alturas, el lector debe ser capaz de hacerlo. 
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Formación de las hipótesis nula y alternativa!* 

Con las hipótesis nula y alternativa, probar su significancia estadística no debe seguir siendo 
un misterio. Pero, ¿cómo se formulan estas hipótesis? No existen reglas específicas. Muy a me- 
nudo, el fenómeno en estudio sugerirá la forma de las hipótesis nula y alternativa. Por ejemplo, 
se pide estimar la línea del mercado de capitales (LMC) de la teoría de portafolios, que postula 
que E; = bı + B20;, donde E = rendimiento esperado del portafolio y ø = la desviación están- 
dar del rendimiento, una medida de riesgo. Como se espera que la ganancia y el riesgo estén 
relacionados positivamente, entre mayor sea el riesgo, más alta será la ganancia; la hipótesis 
alternativa natural a la hipótesis nula, $6, = 0, sería 62 > 0. Es decir, no se considerarán valores 
de 2 menores de cero. 

Pero considere el caso de la demanda de dinero. Como demostraremos más adelante, un deter- 
minante importante de la demanda de dinero es el ingreso. Estudios anteriores de las funciones de 
demanda de dinero revelan que la elasticidad ingreso de la demanda de dinero (el cambio porcen- 
tual en la demanda de dinero por un cambio porcentual de 1% en el ingreso) suele ubicarse en un 
rango de 0.7 a 1.3. Por consiguiente, en un nuevo estudio de la demanda de dinero, si se postula 
que el coeficiente £2 de la elasticidad ingreso es 1, la hipótesis alternativa puede ser que 62 Æ 1, 
una hipótesis alternativa bilateral. 

Así, las expectativas teóricas o el trabajo empírico previo o ambos pueden ser la base para 
formular hipótesis. Sin embargo, sin importar la forma de postular hipótesis, es en extremo im- 
portante que el investigador plantee estas hipótesis antes de la investigación empírica. De lo 
contrario, él o ella serán culpables de razonamientos circulares o profecías autocumplidas. Es 
decir, si se formula la hipótesis después de examinar los resultados empíricos, puede presentarse 
la tentación de formular la hipótesis de manera que justifique los resultados. Deben evitarse estas 
prácticas a cualquier costo, al menos para salvar la objetividad científica. Recuerde la cita de 
Stigler al principio de este capítulo. 


Selección del nivel de significancia «œ 

Del análisis expuesto hasta ahora, debe tenerse claro que rechazar o no una hipótesis nula de- 
pende de «, el nivel de significancia o probabilidad de cometer un error tipo I, o sea, la proba- 
bilidad de rechazar la hipótesis cuando es verdadera. En el apéndice A se analiza en detalle la 
naturaleza del llamado error tipo I, su relación con el error tipo II (la probabilidad de aceptar 
la hipótesis cuando es falsa) y la razón por la cual la estadística clásica suele centrarse en el error 
tipo I. Pero incluso entonces, ¿por qué « se fija generalmente en los niveles de 1, 5 o, cuanto 
mucho, 10%? De hecho, no hay nada sagrado acerca de estos valores; cualquier otro valor sería 
por igual apropiado. 

En un libro introductorio como éste no es posible analizar a fondo la razón por la cual se esco- 
gen los niveles de significancia 1, 5 o 10%, pues nos llevaría al campo de la toma de decisiones 
estadísticas, de suyo una disciplina completa. Sin embargo, sí podemos ofrecer un breve resu- 
men. Como estudiamos en el apéndice A, para un tamaño de muestra dada, si tratamos de reducir 
un error tipo I, aumenta un error tipo II, y viceversa. Es decir, con el tamaño de la muestra, si 
tratamos de reducir la probabilidad de rechazar la hipótesis cuando es verdadera, se aumenta al 
mismo tiempo la probabilidad de aceptarla cuando es falsa. Por tanto, dado el tamaño de la mues- 


13 Hay una exposición interesante sobre la formulación de hipótesis en J. Bradford De Long y Kevin Lang, 
“Are All Economic Hypotheses False?”, Journal of Political Economy, vol. 100, núm. 6, 1992, pp. 1257-1272. 
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tra, existe una compensación entre estos dos tipos de error. Ahora, la única forma de decidir sobre 
esta compensación es encontrar los costos relativos de ambos tipos de error. Entonces, 


Si el error de rechazar la hipótesis nula cuando es verdadera (error tipo I) es costoso en comparación 
con el error de no rechazar la hipótesis nula cuando es falsa (error tipo II), será razonable fijar la 
probabilidad de ocurrencia del primer tipo de error en niveles bajos. Si, por otra parte, el costo de 
incurrir en el error tipo I es bajo comparado con el costo de cometer el error tipo II, se justificará que 
la probabilidad del primer tipo de error sea alta (lo que reduce la posibilidad de incurrir en el segundo 
tipo de error).!* 


Desde luego, el problema es que pocas veces se conocen los costos de cometer los dos tipos de 
error. Por tanto, los econometristas tienen por costumbre fijar el valor de œ en niveles de 1, 5 o 
10% como máximo, y escogen un estadístico de prueba que haga que la probabilidad de cometer 
un error tipo II sea lo más pequeña posible. Como uno menos la probabilidad de cometer un error 
tipo II se conoce como la potencia de la prueba, este procedimiento equivale a maximizar la 
potencia de la prueba. (Véase en el apéndice A un análisis de la potencia de una prueba.) 

Afortunadamente, el problema relacionado con la selección del valor apropiado de «œ se evita 
al emplear lo que se conoce como valor p del estadístico de prueba, que analizamos a continua- 
ción. 


Nivel exacto de significancia: Valor p 


Como recién mencionamos, el talón de Aquiles del método clásico de la prueba de hipótesis es su 
arbitrariedad al seleccionar œ. Una vez obtenido un estadístico de prueba (es decir, el estadístico 
f) en un ejemplo dado, ¿por qué no tan sólo consultar la tabla estadística adecuada y encontrar 
la probabilidad real de obtener un valor del estadístico de prueba tan grande o mayor que el ob- 
tenido en el ejemplo? Esta probabilidad se denomina valor p (es decir, valor de probabilidad), 
también conocido como nivel observado o exacto de significancia, o probabilidad exacta de 
cometer un error tipo I. Más técnicamente, el valor p se define como nivel de significancia más 
bajo al cual puede rechazarse una hipótesis nula. 

Para ilustrar, retomemos el ejemplo de los salarios y el nivel de escolaridad. Con la hipótesis 
nula de que el verdadero coeficiente del nivel de escolaridad es 0.5, se obtuvo un valor £ de 3.2 en 
la ecuación (5.7.4). ¿Cuál es el valor p de obtener un valor £ igual o superior a 3.2? En la tabla t 
del apéndice D se observa que, para 11 gl, la probabilidad de obtener tal valor £ debe estar muy 
por debajo de 0.005 (una cola) o 0.010 (dos colas). 

Si se usan los paquetes estadísticos Stata o EViews, se calcula que el valor p de obtener un 
valor t igual o mayor que 3.2 es de 0.00001, es decir, muy pequeño. Éste es el valor p del estadís- 
tico observado f. Este nivel exacto de significancia del estadístico £ es mucho menor que el nivel 
de significancia que se fija de manera convencional y arbitraria, como 1, 5 o 10%. En realidad, 
si se utilizara el valor p recién calculado y se rechazara la hipótesis nula de que el verdadero 
coeficiente de escolaridad es 0.5, la probabilidad de cometer un error tipo I sería más o menos 
de sólo 1 en 100 000. 

Como ya mencionamos, si los datos no apoyan la hipótesis nula, el || obtenido con tal hipó- 
tesis nula será “grande” y, por consiguiente, el valor p de obtener tal |ź| será “pequeño”. En otras 
palabras, para un tamaño de muestra dado, a medida que aumenta ||, el valor p se reduce y, por 
consiguiente, se rechaza la hipótesis nula con mayor confianza. 

¿Cuál es la relación entre el valor p y el nivel de significancia œ? Si se adquiere el hábito de 
fijar «œ igual al valor p de un estadístico de prueba (es decir, el estadístico £), entonces no hay con- 
flicto entre estos dos valores. En otros términos, es mejor dejar de fijar æ de forma arbitraria 


14 Jan Kmenta, Elements of Econometrics, Macmillan, Nueva York, 1971, pp. 126-127. 
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en algún nivel y tan sólo seleccionar el valor p del estadístico de prueba. Es preferible dejar 
que el lector decida si debe rechazar la hipótesis nula con el valor p dado. Si, en una aplicación, 
el valor p de un estadístico de prueba resulta ser, por ejemplo, 0.145 o 14.5%, y si el lector desea 
rechazar la hipótesis nula en este nivel (exacto) de significancia, que así sea. No está mal correr 
el riesgo de equivocarse 14.5% de las veces si se rechaza la hipótesis nula verdadera. De manera 
similar, como en el ejemplo de los salarios y el nivel de escolaridad, no está mal si el investigador 
desea escoger un valor p cercano a 0.02% y no correr el riesgo de equivocarse más de 2 veces de 
cada 10 000. Después de todo, algunos investigadores pueden amar el riesgo y otros no. 

En el resto de este texto por lo general citaremos el valor p de un estadístico de prueba dado. 
Tal vez algunos lectores deseen fijar œ en algún nivel y rechazar la hipótesis nula si el valor p es 
menor que «œ. Es su decisión. 


Significancia estadística y significancia práctica 

Recordemos el ejemplo 3.1 y los resultados de la regresión en la ecuación (3.7.1). Esta regresión 
relaciona el consumo personal (GCP) con el producto interno bruto (PIB) en Estados Unidos de 
1960 a 2005; ambas variables se miden en miles de millones de dólares de 2000. 

En esta regresión observamos que la propensión marginal a consumir (PMC), es decir, el 
consumo adicional que produce un dólar adicional de ingreso (medido por el PIB) es de alrede- 
dor de 0.72, o 72 centavos. Con los datos de la ecuación (3.7.1), el lector puede verificar que el 
intervalo de confianza a 95% para la PMC sea (0.7129, 0.7306). (Vota: Como hay 44 gl en este 
problema, no contamos con un valor crítico £ preciso para estos gl. En consecuencia, el intervalo 
de confianza a 95% se calcula con la regla práctica 2f.) 

Suponga que alguien afirma que la verdadera PMC es 0.74. ¿Esta cifra difiere de 0.72? Sí, si 
nos apegamos estrictamente al intervalo de confianza establecido antes. 

Pero, ¿cuál es el significado práctico o real del hallazgo? Es decir, ¿qué diferencia hay entre 
asignar a la PMC un valor de 0.74 o uno de 0.72? ¿Es la diferencia de 0.02 entre las dos PMC 
muy importante en la práctica? 

La respuesta depende de lo que en realidad se haga con estas estimaciones. Por ejemplo, de la 
macroeconomía se sabe que el multiplicador del ingreso es 1/(1 — PMC). Por tanto, si la PMC 
es 0.72, el multiplicador es 3.57, pero será 3.84 si la PMC es igual a 0.74. Es decir, si el gobierno 
incrementara su gasto en 1 dólar para sacar la economía de una recesión, el ingreso aumentaría 
3.57 dólares, si la PMC fuese 0.72, pero lo hará 3.84 dólares si la PMC es 0.74. Y esa diferencia 
puede ser crucial para reactivar la economía. 

El punto de toda esta exposición es que no se debe confundir la significancia estadística con 
la significancia práctica o económica. Como afirma Goldberger: 


Cuando se especifica una hipótesis nula, digamos £; = 1, lo que se busca es que £; esté cercano a 
1, tan cerca que para todos los propósitos prácticos pueda tratarse como si fuera 1. Pero que 1.1 sea 
“prácticamente lo mismo que” 1.0 es un asunto de economía, no de estadística. El asunto no se 
resuelve con una prueba de hipótesis, porque el estadístico de prueba [t = ](b; — 1)/0,; mide 
el coeficiente estimado en unidades de errores estándar, las cuales no tienen significado para me- 
dir el parámetro económico £; — 1. Puede ser una buena idea reservar el término “significancia” para 
el concepto estadístico, y adoptar la palabra “sustancial” para el económico.!* 


15 Arthur S. Goldberger, A Course in Econometrics, Harvard University Press, Cambridge, Massachusetts, 1991, 
p. 240. Observe que bj es el estimador de MCO de $; y Gp; es su error estándar. Este enfoque se corrobora 
en D. N. McCloskey, “The Loss Function Has Been Mislaid: The Rhetoric of Significance Tests”, American 
Economic Review, vol. 75, 1985, pp. 201-205. Véase también D. N. McCloskey y S. T. Ziliak, “The Standard 
Error of Regression,” Journal of Economic Literature, vol. 37, 1996, pp. 97-114. 
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El punto expresado por Goldberger es importante. A medida que el tamaño de la muestra se 
hace muy grande, la importancia de los temas relacionados con significancia estadística se re- 
duce mucho, pero los temas de significancia económica adquieren importancia crítica. De hecho, 
como con muestras grandes se rechazan casi todas las hipótesis nulas, puede haber estudios en 
los cuales lo único importante sea la magnitud de los valores estimados puntuales. 


Elección entre los enfoques de intervalos de confianza 
y pruebas de significancia en las pruebas de hipótesis 


En la mayor parte de los análisis económicos aplicados, la hipótesis nula postulada hace las veces 
de comodín, y el objetivo del trabajo empírico es tumbarlo, es decir, rechazar la hipótesis nula. 
Por tanto, en el ejemplo consumo-ingreso, la hipótesis nula de que la PMC £2 = 0 es a todas 
luces absurda, pero con frecuencia sirve para ejemplificar los resultados empíricos. Parece que 
a los editores de publicaciones especializadas de renombre no les emociona publicar un trabajo 
empírico que no rechace la hipótesis nula. De alguna manera, como noticia, es más novedoso el 
hallazgo de que la PMC sea estadísticamente diferente de cero que el hallazgo de que sea igual 
a, digamos, 0.7. 
Así, J. Bradford De Long y Kevin Lang sostienen que es mejor para los economistas 


...concentrarse en las magnitudes de los coeficientes e informar sobre los niveles de confianza y no 
sobre las pruebas de significancia. Si todas, o casi todas, las hipótesis nulas son falsas, no es muy 
sensato concentrarse en averiguar si una estimación es o no distinguible de su valor predicho con la 
hipótesis nula. En lugar de esto, deseamos saber qué modelos son buenas aproximaciones, para lo 
cual es necesario conocer los intervalos de los valores de los parámetros excluidos por las estimacio- 
nes empíricas.!% 


En resumen, estos autores prefieren el enfoque de intervalos de confianza al de pruebas de 
significancia. Este consejo puede ser de utilidad para el lector.'” 


5.9 Análisis de regresión y análisis de varianza 


En esta sección estudiamos el análisis de regresión desde el punto de vista del análisis de va- 
rianza, y nos introduciremos en una forma complementaria de mirar el problema de la inferencia 
estadística. 

En el capítulo 3, sección 3.5, elaboramos la siguiente identidad: 


r=} y+} ADA DA (3.5.2) 


es decir, SCT = SCE + SCR, la cual fragmenta la suma de cuadrados total (SCT) en dos com- 
ponentes: la suma de cuadrados explicada (SCE) y la suma de cuadrados de residuos (SCR). El 
estudio de estos componentes de SCT se conoce como análisis de varianza (ANOVA) desde el 
punto de vista de la regresión. 

Asociados con toda suma de cuadrados están sus gl, es decir, el número de observaciones 
independientes en las que se basa. La SCT tiene n — 1 gl porque se pierde 1 gl en el cálculo de la 
media muestral . La SCR tiene n — 2 gl. (¿Por qué?) (Nota: Esto sólo es válido para el modelo de 
regresión con dos variables con presencia del intercepto £1.) SCE tiene 1 gl (de nuevo, esto sólo 
vale para el caso de dos variables), lo cual se deduce de que SCE = B Y x? sea una función 
sólo de Ê», pues se conoce }` e 


16 Véase su artículo citado en la nota 13, p. 1271. 


17 Para una perspectiva un tanto distinta, véase Carter Hill, William Griffiths y George Judge, Undergraduate 
Econometrics, Wiley & Sons, Nueva York, 2001, p. 108. 


TABLA 5.3 

Tabla ANOVA para el 
modelo de regresión con 
dos variables 
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Fuente de variación sc* gl scpt 
Debido a la regresión (SCE) NY =P 0 1 BSEx? 

12 
Debido a los residuos (SCR) Tir n-2 2 =ô? 
SCT Dy n-1 


* SC significa suma de cuadrados. 
T Significa suma de cuadrados promedio, la cual se obtiene al dividir SC entre el número de gl. 


Reorganicemos las sumas de cuadrados y sus gl asociados en la tabla 5.3, que es la forma es- 
tándar de la tabla AOV, denominada algunas veces tabla ANOVA. Con la información de la tabla 
5.3, consideremos ahora la siguiente variable: 


_ SCP de SCE 
— SCP de SRC 


E 
= 52/03 (5.9.1) 


BER 


ô2 


Si suponemos que las perturbaciones u; están normalmente distribuidas, lo cual se cumple 
para el MCRLN, y si la hipótesis nula (Hp) es que 2 = 0, puede demostrarse que la variable F 
de la ecuación (5.9.1) satisface la distribución F con 1 gl en el numerador y (n — 2)gl en el de- 
nominador. (Véase la prueba en el apéndice 5A, sección 5A.3. Las propiedades generales de la 
distribución F se explican en el apéndice A.) 

¿Qué uso puede hacerse de la razón F anterior? Puede demostrarse! que 


(BY) 


(5.9.2) 


n2 
E> L p) =o? (5.9.3) 
n—2 

(Observe que 62 y o? al lado derecho de estas ecuaciones son los verdaderos parámetros.) Por 
tanto, si f6, es en realidad cero, ambas ecuaciones (5.9.2) y (5.9.3) proporcionan estimaciones 
idénticas del verdadero o°. En esta situación, la variable explicativa X no tiene influencia lineal 
alguna sobre Y, y toda la variación en Y se explica con las perturbaciones aleatorias u;. Por otra 
parte, si B, es diferente de cero, (5.9.2) y (5.9.3) serán diferentes y parte de la variación en Y se 
atribuirá a X. Por consiguiente, la razón F de (5.9.1) constituye una prueba de la hipótesis nula 
Ho: f2 = 0. Como todas las cantidades que forman parte de esta ecuación se obtienen de la mues- 
tra disponible, esta razón F constituye un estadístico de prueba para verificar la hipótesis nula 
de que el verdadero £z es igual a cero. Sólo debe calcularse la razón F y compararla con el valor 
crítico F obtenido de las tablas F en el nivel de significancia seleccionado, u obtener el valor p 
del estadístico F calculado. 


18 Para una demostración, véase K. A. Brownlee, Statistical Theory and Methodology in Science and Engineering, 
John Wiley & Sons, Nueva York, 1960, pp. 278-280. 
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TABLA 5.4 

Tabla ANOVA para el 
ejemplo de los salarios y 
el nivel de escolaridad 


Fuente de variación SC gl SCP 

95.4255 
Debido a la regresión (SCE) 95.4255 1 95.4255 F= o 
Debido a los residuos (SCR) 9.6928 11 0.8811 = 108.3026 
SCT 105.1183 12 


Para esclarecer esto, continuamos con el ejemplo ilustrativo. La tabla ANOVA para este ejem- 
plo se presenta en la tabla 5.4. El valor F calculado es 108.3026. El valor p de este estadístico F 
correspondiente a 1 y 8 gl no puede obtenerse de la tabla F dada en el apéndice D, pero con tablas 
estadísticas electrónicas se demuestra que el valor p es 0.0000001, una probabilidad en efecto 
muy pequeña. Si escoge el método del nivel de significancia para la prueba de hipótesis y fija œ en 
0.01, o en un nivel de 1%, se verá que la F calculada de 108.3026 es obviamente significativa en 
este nivel. Por tanto, si rechazamos la hipótesis nula de que £2 = 0, la probabilidad de cometer 
un error tipo I es muy pequeña. Para todo fin práctico, la muestra no pudo provenir de una pobla- 
ción con un valor $) igual a cero, y se puede concluir con gran confianza que X, la educación, sí 
afecta Y, el salario promedio. 

Consulte el teorema 5.7 del apéndice 5A.1, que establece que el cuadrado del valor t con k gl 
es un valor F con 1 gl en el numerador y k gl en el denominador. En nuestro ejemplo, si supone- 
mos que Ho: 62 = 0, entonces con (5.3.2) se verifica fácilmente que el valor £ estimado es 10.41. 
Este valor f tiene 11 gl. Según la misma hipótesis nula, el valor F era 108.3026 con 1 y 11 gl. De 
donde (10.3428)? = valor F, excepto por errores de redondeo. 

Así, las pruebas £ y F proporcionan dos formas alternas, pero complementarias, de probar 
la hipótesis nula de que £2 = 0. Si éste es el caso, ¿por qué no sólo confiar en la prueba £ y no 
preocuparse por la prueba F y el análisis de varianza que la acompaña? Para el modelo con dos 
variables, en realidad no es necesario recurrir a la prueba F. Pero cuando consideremos el tema 
de la regresión múltiple, veremos que la prueba F tiene diversas aplicaciones interesantes que la 
hacen un método muy útil y eficaz para demostrar hipótesis estadísticas. 


5.10 Aplicación del análisis de regresión: 


problema de predicción 


Con base en los datos muestrales de la tabla 3.2 se obtuvo la siguiente regresión muestral: 
Y, = —0.0144+0.7240X, (3.6.2) 


donde Y, es el estimador del verdadero E(Y;) correspondiente a X dada. ¿De qué sirve esta re- 
gresión histórica? Para “predecir” o “pronosticar” el salario promedio futuro Y correspondiente 
a algún nivel dado de escolaridad X. Ahora, hay dos clases de predicciones: 1) la predicción del 
valor de la media condicional de Y correspondiente a un valor escogido X, por ejemplo, Xo, que es 
el punto sobre la línea de regresión poblacional misma (véase la figura 2.2), y 2) la predicción de 
un valor individual Y correspondiente a Xy. Estas dos predicciones se llaman predicción media 
y predicción individual. 
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Predicción medial? 

Para ordenar las ideas, suponga que Xy = 20 y deseamos predecir E(Y| Xo = 20). Ahora, puede 
demostrarse que la regresión histórica (3.6.2) proporciona la estimación puntual de esta predic- 
ción media de la siguiente forma: 


Yo = B1 + f2Xo 
= 0.0144 + 0.7240(20) (5.10.1) 
= 14.4656 


donde Y, = estimador de E(Y|X). Puede comprobarse que este predictor puntual es el mejor 
estimador lineal e insesgado (MELI). 

Como Yo es un estimador, es probable que éste sea diferente de su verdadero valor. La diferen- 
cia entre los dos valores dará alguna idea del error de predicción o pronóstico. Para evaluar este 
error es necesario encontrar la distribución muestral de Yọ. En el apéndice 5A, sección 5A.4, se 
demuestra que en la ecuación (5.10.1) Yo está normalmente distribuida con media (61 + 2X0) y 
una varianza dada por la siguiente fórmula: 


_ Y 
L De, | (5.10.2) 


mao a a mA 
var (Yo) [+ e 


Al reemplazar la o? desconocida por su estimador insesgado 6?, vemos que la variable 


ME Yo — (Br + P2X0) 


- (5.10.3) 
ee (Yo) 


sigue una distribución £ con n — 2 gl. La distribución f sirve por consiguiente para construir in- 
tervalos de confianza para el verdadero E(Yo | Xo) y pruebas de hipótesis acerca de tal valor de la 
manera usual, a saber, 


Pr [ĝi + B2Xo — faja ee (Po) < Bi + BaXo < Br + B2Xo + faja ee(Yo)]=1—0 
(5.10.4) 
donde ee È) se obtiene de (5.10.2). 


Para nuestros datos (véase la tabla 3.2), 


1 (0-12? 
13 182 


var (Lo) = 0.8936 | + 


= 0.3826 
ee (Po) = 0.6185 


Por tanto, el intervalo de confianza a 95% para el verdadero E(Y | Xo) = 61 + 62X0 está dado por 


14.4656 — 2.201(.6185) < E(Yo | X = 20) < 14.4656 = 2.20(0.6185) 


19 Para las pruebas de las distintas afirmaciones, véase el apéndice 5A, sección 5A.4. 
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FIGURA 5.6 
Intervalos (bandas) de 
confianza para la media 
de Y y los valores indivi- 
duales de Y. 
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X 
es decir, 
13.1043 < E(Y | X = 20) < 15.8260 (5.10.5) 


Así, dado Xy = 100, en muestreo repetido, en 95 de cada 100 intervalos como (5.10.5) estará el 
verdadero valor medio; la mejor estimación del verdadero valor medio es, por supuesto, la esti- 
mación puntual 75.3645. 

Si obtenemos intervalos de confianza a 95% como (5.10.5) por cada valor de X en la tabla 3.2, 
se obtiene lo que se conoce como intervalo de confianza o banda de confianza, para la función 
de regresión poblacional, que se presenta en la figura 5.6. 


Predicción individual 

Si lo que interesa es predecir un valor individual Y, Y, correspondiente a un valor dado de X, di- 
gamos, Xo, entonces, como se muestra en el apéndice 5, sección 5A.4, el mejor estimador lineal 
insesgado de Yo está dado también por (5.10.1), pero su varianza es la siguiente: 


_ 
A | (5.10.6) 


a A A e 
var (Yo — Yo) [Yo = Yo] o |ia 7 


Además, se demuestra que Yọ también sigue una distribución normal con media y varianza dadas 
por (5.10.1) y (5.10.6), respectivamente. Al sustituir 4? por la desconocida o?, se colige que 


Yo — Yo 


t = ———— 
ee (Yo — Yo) 
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también sigue una distribución f. Por consiguiente, la distribución f sirve para inferir sobre la 
verdadera Yọ. Al continuar con el ejemplo, vemos que la predicción puntual de Y, es 14.4656, 
igual a Yo, y su varianza es 1.2357 (el lector debe verificar este cálculo). Por tanto, el intervalo de 
confianza a 95% para Yo correspondiente a Xy = 100 es 


(12.0190 < Yo | Xo = 20 < 16.9122) (5.10.7) 


Si comparamos este intervalo con (5.10.5), vemos que el intervalo de confianza para la Yọ 
individual es más amplio que el intervalo para el valor medio de Yo. (¿Por qué?) Calculamos 
los intervalos de confianza como en (5.10.7) condicionales a los valores de X dados en la tabla 
3.2 y se obtiene la banda de confianza a 95% para los valores individuales Y correspondientes a 
estos valores de X. Esta banda de confianza, al igual que la banda de confianza para Y, asocia- 
da con los mismos X, se muestran en la figura 5.6. 

Note una característica importante de las bandas de confianza de la figura 5.6. La amplitud 
más pequeña de estas bandas se presenta cuando Xy = X. (¿Por qué?) Sin embargo, aumenta 
considerablemente a medida que Xy se aleja de X. (¿Por qué?) Este cambio indicaría que la capa- 
cidad de predicción de la línea de regresión muestral histórica decrece mucho a medida que Xo 
se aleja cada vez más de X. Por consiguiente, se debe tener cuidado al “extrapolar” la línea 
de regresión histórica para predecir E(Y | Xo) o Yo asociada a una Xy dada muy alejada de 
la media muestral X. 


5.11 Informe de resultados del análisis de regresión 


Hay diversas formas de presentar los resultados de un análisis de regresión; sin embargo, en este 
texto utilizaremos el siguiente formato, con el ejemplo de los salarios y el nivel de escolaridad 
del capítulo 3 a manera de ilustración: 


Y, = —0.0144 +  0.7240X; 


ee = (0.9317) (0.0700) r? = 0.9065 
(5.11.1) 
t = (-0.0154) (10.3428) gl = 11 
p= (0.987) (0.000) F; 11 = 108.30 


En la ecuación (5.11.1), las cifras del primer conjunto de paréntesis son los errores estándar 
estimados de los coeficientes de regresión; las cifras del segundo conjunto son los valores f es- 
timados calculados de (5.3.2) según la hipótesis nula de que el verdadero valor poblacional de 
cada coeficiente de regresión individual es cero (es decir, 10.3428 = 01240); y las cifras del tercer 
grupo son los valores p estimados. Por tanto, para 11 gl, la probabilidad de obtener un valor t 
igual o mayor que 10.3428 es de 0.00009, o prácticamente cero. 

Al presentar los valores p de los coeficientes t estimados, se aprecia de inmediato el nivel 
exacto de significancia de cada valor £ estimado. Así, conforme a la hipótesis nula de que el ver- 
dadero valor de la pendiente poblacional es cero (es decir, que el nivel de escolaridad no produce 
ningún efecto en el salario promedio), la probabilidad exacta de obtener un valor £ igual o mayor 
que 10.3428 es prácticamente cero. Recuerde que cuanto menor sea el valor p, menor será tam- 
bién la probabilidad de cometer un error si se rechaza la hipótesis nula. 
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Ya mostramos la conexión entre los estadísticos F y t, a saber, Fi ; = de Según la hipótesis 
nula de que el verdadero 2 = 0, la ecuación (5.11.1) muestra que el valor F es 108.30 (para 
1 gl en el numerador y 11 gl en el denominador), y el valor ź es cercano a 10.34 (11 gl); como 
se esperaba, el primer valor es igual al último valor elevado al cuadrado, salvo por errores de 
aproximación. Ya se analizó la tabla ANOVA para este problema. 


5.12 Evaluación de los resultados del análisis de regresión 


En la figura 1.4 de la Introducción esbozamos la anatomía de la creación de modelos economé- 
tricos. Ahora que presentamos los resultados del análisis de regresión del ejemplo de salarios 
y niveles de escolaridad en (5.11.1) cabe cuestionar la bondad del modelo ajustado. ¿Qué tan 
“bueno” es el modelo ajustado? Necesitamos ciertos criterios para responder esta pregunta. 

Primero, ¿están los signos de los coeficientes estimados de acuerdo con las expectativas teó- 
ricas o previas? A priori, f2 en el ejemplo de los salarios y el nivel de escolaridad debe ser posi- 
tivo. En el presente ejemplo, lo es. Segundo, si la teoría sostiene que la relación no debe ser 
sólo positiva sino también estadísticamente significativa, ¿es el caso en la presente aplicación? 
Como analizamos en la sección 5.11, el coeficiente del nivel de escolaridad no sólo es positivo, 
sino también estadísticamente significativo, es decir, diferente de cero; el valor p del valor t 
estimado es muy pequeño. Valen los mismos comentarios para el coeficiente del intercepto. Ter- 
cero, ¿qué tan bien explica el modelo de regresión la variación en el ejemplo? Se puede responder 
con r°. En nuestro ejemplo, r° es de alrededor de 0.90, un valor muy alto si consideramos que r? 
puede ser máximo 1. 

Así, parece muy bueno el modelo escogido para explicar el comportamiento de los salarios 
promedio. Pero antes de comprometerse con él, sería interesante averiguar si satisface los su- 
puestos del MCRLN. No veremos ahora los diversos supuestos, pues la simplicidad del modelo 
es clara. Sólo hay un supuesto que se puede verificar, a saber, el de normalidad del término de 
perturbación, u;. Recuerde que las pruebas f y F requieren que el término de error siga una distri- 
bución normal. De lo contrario, el procedimiento de prueba no será válido en muestras pequeñas, 
O finitas. 


Pruebas de normalidad 


Aunque se han estudiado diversas pruebas de normalidad en la teoría, sólo consideraremos tres: 
1) histograma de residuos, 2) gráfica de probabilidad normal (GPN) y 3) prueba Jarque-Bera. 


Histograma de residuos 

Es un simple dispositivo gráfico para saber algo sobre la forma de la función de densidad pobla- 
cional (FDP) de una variable aleatoria. En el eje horizontal se dividen los valores de la variable de 
interés (por ejemplo, los residuos de MCO) en intervalos convenientes, y sobre cada intervalo 
de clase se construyen rectángulos cuya altura sea igual al número de observaciones (es decir, la 
frecuencia) para ese intervalo de clase. Si mentalmente se coloca la curva de distribución normal 
en forma de campana sobre el histograma, se tendrá cierta idea sobre la pertinencia o no de la 
aproximación normal (FDP). En la figura 5.7 se presenta el histograma de residuos correspon- 
diente a la regresión de salarios y nivel de escolaridad. 

Este diagrama muestra que los residuos no tienen distribución normal perfecta; para una va- 
riable distribuida normalmente, la asimetría (una medida de la simetría) debe ser cero, y la cur- 
tosis (que mide si la distribución normal es alta o baja), 3. 

Siempre es aconsejable trazar el histograma de los residuos de cualquier regresión como mé- 
todo aproximado y rápido para probar el supuesto de normalidad. 


FIGURA 5.7 
Histograma de residuos 
de los datos de salarios y 
nivel de escolaridad. 


Capítulo 5 Regresión con dos variables: estimación por intervalos y pruebas de hipótesis 131 


Histograma 
(La respuesta es el salario promedio por hora) 


Frecuencia 
N 
T 


-1.5 -1.0 -0.5 0 0.5 1.0 1.5 
Residuo 


Gráfica de probabilidad normal 

Un dispositivo gráfico relativamente sencillo para estudiar la forma de la función de densidad 
de probabilidad (FDP) de una variable aleatoria es la gráfica de probabilidad normal (GPN), 
la cual utiliza el papel de probabilidad normal, especialmente diseñado para gráficas. Sobre el 
eje horizontal, o eje X, se grafican los valores de la variable de interés (por ejemplo, los residuos 
de MCO, ù;), y sobre el eje vertical, o eje Y, el valor esperado de esta variable si estuviera nor- 
malmente distribuida. Por tanto, si la variable fuese de la población normal, la GPN sería más o 
menos una línea recta. La GPN de los residuos correspondientes a la regresión de los salarios y 
el nivel de escolaridad se muestra en la figura 5.8, que se obtuvo con el software MINITAB, ver- 
sión 15. Como se observó antes, si la línea resultante en la GPN es aproximadamente una línea 
recta, se puede concluir que la variable de interés está normalmente distribuida. En la figura 5.7 
se aprecia que los residuos del ejemplo están aproximadamente distribuidos normalmente, pues 
al parecer una línea recta se ajusta a los datos de forma razonable. 

Con el MINITAB también se obtiene la prueba de normalidad Anderson-Darling, conocida 
como estadístico 4?. La hipótesis nula es que la variable en cuestión está normalmente distri- 
buida. Como se muestra en la figura 5.8, para el ejemplo, el estadístico 4? calculado es 0.289. El 
valor p de obtener tal valor de 4? es de 0.558, razonablemente alto. Por consiguiente, no recha- 
zamos la hipótesis de que los residuos del ejemplo ilustrativo están normalmente distribuidos. 
A propósito, en la figura 5.8 se muestran los parámetros de la distribución (normal), la media es 
aproximadamente 0, y la desviación estándar, de casi 0.8987. 


Prueba de normalidad de Jarque-Bera (JB)? 


La prueba de normalidad JB es una prueba asintótica, o de muestras grandes. También se basa 
en los residuos de MCO. Esta prueba calcula primero la asimetría y la curtosis (analizadas en el 
apéndice A) de los residuos de MCO, con el siguiente estadístico de prueba: 


TS. (K-3Y 


20 Véase C.M. Jarque y A.K. Bera, “A Test for Normality of Observations and Regression Residuals”, Internatio- 
nal Statistical Review, vol. 55, 1987, pp. 163-172. 
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FIGURA 5.8 
Residuos de la regresión 
de salarios y nivel de 
escolaridad. 
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donde n = tamaño de la muestra, S = coeficiente de asimetria y K = coeficiente de curtosis. 
Para una variable normalmente distribuida, S = 0 y K= 3. Por tanto, la prueba de normalidad JB 
constituye una prueba de la hipótesis conjunta de que S y K son 0 y 3, respectivamente. En este 
caso, se espera que el valor del estadístico JB sea igual a cero. 

De acuerdo con la hipótesis nula, la cual afirma que los residuos están normalmente distribui- 
dos, Jarque y Bera mostraron que asintóticamente (es decir, en muestras grandes) el estadístico 
JB dado en (5.12.1) sigue la distribución ji cuadrada, con 2 gl. Si el valor p calculado del esta- 
dístico JB es lo bastante bajo en una aplicación, lo cual sucederá si el valor del estadístico difiere 
en gran medida de cero, se puede rechazar la hipótesis de que los residuos están normalmente 
distribuidos. Pero si el valor p es razonablemente alto, lo cual sucede cuando el valor del estadís- 
tico está cerca de cero, no rechazamos la suposición de normalidad. 

En nuestro ejemplo, el estadístico JB estimado para la regresión de salarios y nivel de educa- 
ción es 0.8286. La hipótesis nula de que los residuos en el presente ejemplo están distribuidos 
normalmente no puede rechazarse, pues el valor p de obtener un estadístico JB igual o mayor 
que 0.8286 es de alrededor de 0.66, o 66%. Esta probabilidad es muy alta. Observe que, aunque 
la regresión tiene 13 observaciones, éstas se obtuvieron de una muestra de 528 observaciones, lo 
que parece razonablemente alto. 


Otras pruebas del ajuste del modelo 

Recuerde que el MCRLN tiene muchos supuestos adicionales al de la normalidad del término 
de error. A medida que examinemos la teoría econométrica, consideraremos diversas pruebas de 
la bondad del modelo (véase el capítulo 13). Hasta entonces, recuerde que la elaboración de mo- 
delos de regresión se basa en diversos supuestos simplificadores que quizá no sean válidos en 
todos los casos. 
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Un ejemplo para 
concluir 


FIGURA 5.9 
Residuos de la regresión 
del gasto alimentario. 


Regresemos al ejemplo 3.2 respecto del gasto alimentario en India. Con los datos de (3.7.2) y el 
formato (5.11.1), obtenemos la siguiente ecuación para el gasto: 


GasAli= 94.2087 + 0.4368 GasTot; 


ee = (50.8563) (0.0783) 
i= AS GSO (5.12.2) 
p= (0.0695) (0.0000)* 
r= 0.3698;  gl=53 
Fis3= 31.1034 (valor p = 0.0000)* 


donde * significa extremadamente pequeño. 

En primer lugar, interpretemos esta regresión. Como se esperaba, hay una relación positiva 
entre el gasto alimentario y el gasto total. Si este último se incrementara una rupia, en prome- 
dio, el gasto en comida aumentaría casi 44 paisas. Si el gasto total fuera nulo, el gasto promedio 
en comida sería más o menos de 94 rupias. Por supuesto, esta interpretación mecánica del 
intercepto quizá no tenga mucho sentido en la economía. El valor r? de casi 0.37 significa que 
37% de la variación en el gasto alimentario se explica por el gasto total, una aproximación para 
el ingreso. 

Suponga que deseamos probar la hipótesis nula de que no existe relación entre el gasto ali- 
mentario y el total; es decir, el verdadero coeficiente de la pendiente f2 = O. El valor estimado 
de 6, es 0.4368. Si la hipótesis nula es cierta, ¿cuál es la probabilidad de obtener un valor igual a 
0.4368? Según la hipótesis nula, se observa de (5.12.2) que el valor tes 5.5770 y que el valor p 
de obtener dicho valor t es prácticamente cero. En otras palabras, se puede rechazar la hipótesis 
nula con toda justificación. Pero suponga que la hipótesis nula fuese que £2 = 0.5, ¿qué pasaría? 
Con la prueba t obtenemos 


_ 0.4368 — 0.5 
0.0783 


La probabilidad de obtener una |t| de 0.8071 es mayor que 20%. Por tanto, no se rechaza la 
hipótesis de que el verdadero valor de £2 sea 0.5. 

Observe que, conforme a la hipótesis nula, el verdadero coeficiente de la pendiente es cero, 
el valor Fes 31.1034, como se muestra en (5.12.2). Según la misma hipótesis nula, se obtiene un 
valor t de 5.5770. Si elevamos al cuadrado este valor, se obtiene 31.1029, que es casi el mismo 
que el valor F, con lo cual se muestra de nuevo la estrecha relación entre t y el estadístico F. 
(Nota: el número de gl del numerador del estadístico F debe ser 1, lo cual ocurre en este caso.) 

Con los residuos estimados de la regresión, ¿qué podemos decir respecto de la distribución 
de probabilidad del término de error? La respuesta se da en la figura 5.9. Como ahí se muestra, 


= 0.8071 
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los residuos de la regresión del gasto alimentario parecen estar simétricamente distribuidos. Al 
aplicarse la prueba Jarque-Bera, se hace evidente que el estadístico JB es casi de 0.2576, y que la 
probabilidad de obtener tal estadístico con el supuesto de normalidad es más o menos de 88%. 
En consecuencia, no rechazamos la hipótesis de que los términos de error están normalmente 
distribuidos. Pero hay que tener presente que el tamaño de la muestra de 55 observaciones tal 
vez no sea lo bastante grande. 

Dejamos al lector la tarea de establecer los intervalos de confianza para los dos coeficientes 
de regresión, obtener la gráfica de probabilidad normal, y realizar predicciones individuales y 
para la media. 


Resumen y 
conclusiones 


1. La estimación y las pruebas de hipótesis constituyen las dos ramas principales de la estadística 
clásica. Después de analizar el problema de la estimación en los capítulos 3 y 4, en este capí- 
tulo contemplamos las pruebas de hipótesis. 

2. Las pruebas de hipótesis responden a esta pregunta: ¿un determinado hallazgo es compatible 
con la hipótesis planteada o no lo es? 

3. Hay dos enfoques mutuamente complementarios para responder a la pregunta anterior: inter- 
valos de confianza y pruebas de significancia. 

4. El método de intervalos de confianza se basa en el concepto de estimación por intervalos. Un 
estimador por intervalos es un intervalo o rango construido de manera que tiene una probabi- 
lidad específica de contener dentro de sus límites al verdadero valor del parámetro descono- 
cido. El intervalo así construido se conoce como intervalo de confianza, que suele definirse 
en forma porcentual, como 90 o 95%. El intervalo de confianza proporciona un conjunto de 
hipótesis factibles acerca del valor del parámetro desconocido. Si el valor al que se refiere 
la hipótesis nula se encuentra en el intervalo de confianza, la hipótesis no se rechaza, y si se 
encuentra fuera de este intervalo, la hipótesis nula puede rechazarse. 

5. En el procedimiento de pruebas de significancia se elabora un estadístico de prueba y se 
examina su distribución muestral según la hipótesis nula. El estadístico de prueba sigue con 
frecuencia una distribución de probabilidad conocida como normal, t, F, o ji cuadrada. Una 
vez calculado el estadístico de prueba (por ejemplo, el estadístico £) a partir de los datos dis- 
ponibles, resulta sencillo obtener su valor p. El valor p da la probabilidad exacta de obtener 
el estadístico de prueba estimado conforme a la hipótesis nula. Si este valor p es pequeño, se 
rechaza la hipótesis nula, pero si es grande puede no rechazarse. El investigador debe decidir 
qué constituye un valor p pequeño o grande. Al seleccionar el valor p, el investigador debe 
considerar la probabilidad de cometer errores tipo I y tipo II. 

6. En la práctica, se debe tener cuidado al determinar «, la probabilidad de cometer un error 
tipo I, al asignarle valores arbitrarios, como 1, 5 o 10%. Es mejor hacer referencia al valor p 
del estadístico de prueba. Además, la significancia estadística de una estimación no debe con- 
fundirse con su significancia práctica. 

7. Por supuesto, las pruebas de hipótesis suponen que el modelo seleccionado para el análisis 
empírico es adecuado en el sentido de que no viola alguno(s) del (los) supuestos(s) que sirven 
de base al modelo clásico de regresión lineal normal. Por tanto, las pruebas sobre la bondad 
del modelo deben preceder a las pruebas de hipótesis. En este capítulo describimos una de 
estas pruebas, la prueba de normalidad, cuyo fin es establecer si el término de error sigue 
una distribución normal. Como en muestras pequeñas, o finitas, las pruebas £, F y ji cuadrada 
requieren el supuesto de normalidad, es importante verificar formalmente este supuesto. 

8. Si el modelo se considera correcto o adecuado, puede emplearse para pronosticar. Pero al pro- 
nosticar los valores futuros del regresando o variable dependiente, no debe salirse demasiado 
del rango muestral de los valores de la regresora, o variable explicativa. De lo contrario, los 
errores de pronóstico pueden aumentar en forma drástica. 
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EJERCICIOS Preguntas 


5.1. Establezca si las siguientes afirmaciones son verdaderas, falsas o inciertas. Sea preciso. 


5.2. 


Jk 


5.4. 


Sade 


a) 


b) 


c) 


La prueba ż de significancia estudiada en este capítulo requiere que las distribuciones 
muestrales de los estimadores Ê 1y B» sigan una distribución normal. 

Aunque el término de perturbación en el MCRL no esté normalmente distribuido, los 
estimadores de MCO continúan siendo insesgados. 


Si no hay intercepto en el modelo de regresión, las u¡(= ú;) estimadas no sumarán 
cero. 


El valor p y el tamaño de un estadistico de prueba tienen el mismo significado. 


En un modelo de regresión que contenga el intercepto, la suma de los residuos es siem- 
pre cero. 


Si no se rechaza una hipótesis nula, es verdadera. 

Entre mayor sea el valor de 0?, mayor será la varianza de B» dada en (3.3.1). 

Las medias condicional e incondicional de una variable aleatoria significan lo mismo. 
En una FRP de dos variables, si el coeficiente de la pendiente £ es cero, el intercepto 
$ se estima por la media muestral Y. 

La varianza condicional, var (Y; | X;) = o°, y la varianza incondicional de Y, var(Y) = 
o, serían la misma si X no tuviera influencia en Y. 


Construya la tabla ANOVA como la de la tabla 5.4 para el modelo de regresión dado en 
(3.7.2) y pruebe la hipótesis de que no existe relación entre el gasto en alimentos y el gasto 
total en India. 


Consulte la regresión de la demanda de teléfonos celulares de la ecuación (3.7.3). 


a) 
b) 
c) 


d) 


¿El coeficiente estimado del intercepto es significativo en el nivel de significancia de 
5%? ¿Qué hipótesis nula está probando? 

¿El coeficiente estimado de la pendiente es significativo en el nivel de significancia de 
5%? ¿En qué hipótesis nula se basa? 

Establezca un intervalo de confianza a 95% para el verdadero coeficiente de la pen- 
diente. 

¿Cual es el valor pronosticado de la media de los teléfonos celulares demandados si el 


ingreso per cápita es de 9 000 dólares? ¿Cuál es el intervalo de confianza a 95% para 
el valor pronosticado? 


Sea p? el verdadero coeficiente de determinación poblacional. Suponga que desea probar 
la hipótesis de que p? = 0. Explique verbalmente cómo probar esta hipótesis. Sugerencia: 
Utilice la ecuación (3.5.11). Véase también el ejercicio 5.7. 


Lo que se conoce como la línea característica del análisis de inversión moderno es senci- 
llamente la línea de regresión obtenida del siguiente modelo: 


Fit = Qi + Pim + Uy 


donde r; = la tasa de rendimiento del i-ésimo valor en el tiempo t 


rmt = la tasa de rendimiento del portafolio del mercado en el tiempo £ 
ur = término de perturbación estocástica 


En este modelo, 6; se conoce como coeficiente beta del ¡-ésimo valor, una medida del 
riesgo del mercado (o sistemático) de un valor.* 


*Véase Haim Levy y Marshall Sarnat, Portfolio and Investment Selection: Theory and Practice, Prentice-Hall 
International, Englewood Cliffs, Nueva Jersey, 1984, capítulo 12. 
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Con base en 240 tasas de rendimiento mensuales para el periodo 1956-1976, Fogler y Ga- 
napathy obtuvieron la siguiente línea característica para las acciones de IBM en relación con el 
índice de portafolio del mercado elaborado en la Universidad de Chicago:” 


Py; = 0.7264 + 1.05987 y2=0.4710 
ee = (0.3001) (0.0728) ale 
Fi 238 = 211.896 


a) Se dice que un valor cuyo coeficiente beta es mayor que uno es un valor volátil o agre- 
sivo. ¿Fueron las acciones de IBM valores volátiles en el periodo que se estudia? 

b) ¿Es el coeficiente del intercepto significativamente diferente de cero? Si lo es, ¿cuál es 
su Interpretación práctica? 


5.6. La ecuación (5.3.5) también se escribe como 


Pr [ĝ> — tunes (Ba) < Ba < Pa + fanee(B2)]=1 0 


Es decir, la desigualdad débil (<) puede reemplazarse por la desigualdad fuerte (<). ¿Por 
qué? 

5.7. R. A. Fisher derivó la distribución muestral del coeficiente de correlación definido en 
(3.5.13). Si se supone que las variables X y Y tienen una distribución normal conjunta, es 
decir, si provienen de una distribución normal bivariada (véase el apéndice 4A, ejercicio 
4.1), entonces, según el supuesto de que el coeficiente de correlación poblacional p es cero, 
es posible demostrar que t = r4/n — 2/4 1 —r? sigue la distribución f£ de Student con 
n — 2 gl.* Demuestre que este valor es idéntico al valor £ dado en (5.3.2) con la hipótesis 
nula de que £ = 0. Por tanto, establezca que con la misma hipótesis nula F = 1?. (Véase 
la sección 5.9.) 


5.8. Considere el siguiente resultado de una regresión:? 


Y, = 0.2033 + 0.6560X, 
ee = (0.0976) (0.1961) 
r2= 0.397  SCR=0.0544 SCE = 0.0358 


donde Y = tasa de participación de la fuerza laboral (TPFL) de las mujeres en 1972 y 
X = TPFL de las mujeres en 1968. Los resultados de la regresión se obtuvieron de una 
muestra de 19 ciudades de Estados Unidos. 

a) ¿Cómo interpreta esta regresión? 

b) Pruebe la hipótesis Ho: 62 = 1 contra A¡: 62 > 1. ¿Qué prueba utilizaría? ¿Por qué? 
¿Cuáles son los supuestos subyacentes de la(s) prueba(s) que eligió? 

c) Suponga que la TPFL para 1968 fue de 0.58 (o 58%). Con base en los resultados de 
la regresión anteriores, ¿cuál es la TPFL media en 1972? Establezca un intervalo 
de confianza de 95% para la predicción de la media. 

d) ¿Cómo probaría la hipótesis de que el término de error en la regresión sobre la pobla- 
ción está normalmente distribuido? Muestre los cálculos necesarios. 


*H. Russell Fogler y Sundaram Ganapathy, Financial Econometrics, Prentice-Hall, Englewood Cliffs, Nueva 
Jersey, 1982, p. 13. 

**Si en realidad p es cero, Fisher demostró que r sigue la misma distribución t siempre que X o Y estén 
normalmente distribuidas. Sin embargo, si p no es igual a cero, ambas variables deben estar normalmente 
distribuidas. Véase R. L. Anderson y T. A. Bancroft, Statistical Theory in Research, McGraw-Hill, Nueva York, 
1952, pp. 87-88. 

İt Adaptado de Samprit Chatterjee, Ali S. Hadi y Bertram Price, Regression Analysis by Example, 3a. ed., Wiley 
Interscience, Nueva York, 2000, pp. 46-47. 
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TABLA 5.5 $ Observación Salario Gasto Observación Salario Gasto 
Salario promedio Y Basto 1 19 583 3 346 27 22 795 3 366 
E A idad 2 20 263 3114 28 21 570 2 920 
3 20 325 3 554 29 22 080 2 980 
Fuente: National Education Asso- 4 26 800 4 642 30 22 250 3 731 
ciation, como se publicó en Albu- 5 29 470 4 669 31 20 940 2 853 
a A E E 6 26 610 4 888 32 21 800 2 533 
7 30 678 5 710 33 22 934 2729 
8 27 170 5536 34 18 443 2 305 
9 25 853 4168 35 19 538 2 642 
10 24 500 3 547 36 20 460 3124 
11 24 274 3159 37 21 419 2752 
12 27 170 3 621 38 25160 3 429 
13 30 168 3 782 39 22 482 3 947 
14 26 525 4 247 40 20 969 2 509 
15 27 360 3 982 41 27 224 5 440 
16 21 690 3 568 42 25 892 4 042 
17 21 974 3155 43 22 644 3 402 
18 20 816 3 059 44 24 640 2 829 
19 18 095 2 967 45 22 341 2 297 
20 20 939 3 285 46 25 610 2 932 
21 22 644 3914 47 26015 3 705 
22 24 624 4 517 48 25 788 4123 
23 27 186 4 349 49 29 132 3 608 
24 33 990 5 020 50 41 480 8 349 
25 23 382 3 594 51 25 845 3 766 
26 20 627 2 821 


Ejercicios empíricos 
5.9. La tabla 5.5 proporciona datos sobre el salario promedio de un maestro de escuela pública 
(el sueldo anual está en dólares) y el gasto en educación pública por alumno (dólares) para 
1985 en los 50 estados y el Distrito de Columbia en Estados Unidos. 
A fin de averiguar si existe alguna relación entre el salario del maestro y el gasto 
por alumno en las escuelas públicas, se sugirió el siguiente modelo: Sueldo; = 61 + 62 
Gasto; + u;, donde la variable Sueldo es el salario del maestro y la variable Gasto signifi- 
ca gasto por alumno. 
a) Grafique los datos y trace la línea de regresión. 
b) Suponga, con base en el inciso a), que decide estimar el modelo de regresión dado 
antes. Obtenga las estimaciones de los parámetros, sus errores estándar, r?, la SCR y la 
SCE. 


c) Interprete la regresión. ¿Tiene sentido económico? 


== 


d) Establezca un intervalo de confianza de 95% para f2. ¿Rechazaría la hipótesis de que 
el verdadero coeficiente de la pendiente es 3.0? 


e 


== 


Obtenga el valor individual pronosticado y la media del Sueldo, si el gasto por alumno 
es de 5 000 dólares. También establezca intervalos de confianza de 95% para la verda- 
dera media y el verdadero valor individual del Sueldo, para la cifra correspondiente al 
gasto. 
f) ¿Cómo probaría la suposición de la normalidad del término de error? Muestre la(s) 
prueba(s) utilizada(s). 
5.10. Consulte el ejercicio 3.20 para construir las tablas ANOVA y probar la hipótesis de que no 
existe ninguna relación entre la productividad y la remuneración salarial real. Haga esto 
con el sector de negocios y con el no agrícola. 
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5.11. 


5.12. 


5.13. 


5.14. 


5.15. 


Consulte el ejercicio 1.7. 


a) Grafique los datos sobre impresiones en el eje vertical y el gasto publicitario en el ho- 
rizontal. ¿Qué tipo de relación observa? 


b) ¿Sería apropiado ajustar un modelo de regresión de dos variables a los datos? ¿Por qué? 
Si la respuesta es negativa, ¿qué tipo de modelo de regresión se ajustaría a los datos? 
¿Cuenta con las herramientas necesarias para ajustar dicho modelo? 

c) Suponga que no se grafican los datos y que sólo ajusta el modelo de regresión con dos 
variables a los datos. Obtenga los resultados usuales de la regresión. Guarde dichos re- 
sultados para revisar después este problema. 


Consulte el ejercicio 1.1. 

a) Grafique el índice de precios al consumidor (IPC) estadounidense en relación con el 
canadiense. ¿Qué revela la gráfica? 

b) Suponga que desea predecir el IPC de EU con base en el canadiense. Elabore un mo- 
delo apropiado. 


c) Pruebe la hipótesis de que no existe relación entre ambos IPC. Utilice œ = 5%. Si 
rechaza la hipótesis nula, ¿significa que el IPC canadiense “condiciona” al IPC esta- 
dounidense? ¿Por qué? 


Consulte el ejercicio 3.22. 

a) Estime las dos regresiones dadas en dicho ejercicio y obtenga los errores estándar, así 
como los demás resultados usuales. 

b) Pruebe la hipótesis de que las perturbaciones en los dos modelos de regresión están 
normalmente distribuidas. 

c) En la regresión del precio del oro, pruebe la hipótesis de que 6, = 1; es decir, que existe 
una relación uno a uno entre los precios del oro y el IPC (el oro tiene una cobertura 
perfecta). ¿Cuál es el valor p del estadístico de prueba estimado? 


d) Repita el paso c) para la regresión del índice de la Bolsa de Valores de Nueva York 
(NYSE). ¿La inversión en el mercado de valores representa una cobertura perfecta 
contra la inflación? ¿Cuál es la hipótesis nula que está probando? ¿Cuál es su valor p? 

e) Entre el oro y el mercado de valores, ¿qué inversión elegiría? ¿En qué basa su deci- 
sión? 

La tabla 5.6 presenta datos sobre el producto nacional bruto y cuatro definiciones de la 

oferta monetaria de Estados Unidos durante el periodo 1970-1983. Al hacer regresiones 

del PNB respecto de las diversas definiciones de dinero, se obtienen los resultados de la 

tabla 5.7: 

Los monetaristas o partidarios de la teoría cuantitativa sostienen que el ingreso nominal 
(el PNB nominal) se determina en gran medida por cambios en la cantidad o en la reserva 
de dinero, aunque no hay consenso sobre la definición “correcta” de dinero. Con los resul- 
tados de la tabla anterior, considere las siguientes preguntas: 

a) ¿Qué definición de oferta monetaria parece estrechamente relacionada con el PNB 


nominal? 
2 


b) Como los términos r^ son uniformemente elevados, ¿significa esto que no importa la 
elección de la definición de dinero? 

c) Si el Banco de la Reserva Federal desea controlar la oferta monetaria, ¿cuál de estas 
medidas de dinero es una mejor meta para ese propósito? ¿Puede deducir su respuesta 
de los resultados de la regresión? 

Suponga que la ecuación de una curva de indiferencia entre dos bienes está dada por 

Xii = pı + b2Xi 


¿Cómo estimaría los parámetros de este modelo? Aplique el modelo anterior a los datos de 
la tabla 5.8 y comente sus resultados. 
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TABLA 5.6 z Medida de oferta monetaria, 

LONI y GTEC mediki es PNB miles de millones de dólares 

de la oferta monetaria miles de millones 

Fuente: Economic Report of the Año de dólares Mı M2 M3 L 

President, 1985, datos del PNB 

A BL ed 1970 992.70 216.6 628.2 677.5 816.3 

abla 1971 1 077.6 230.8 712.8 776.2 903.1 

B-61, p. 303. 1972 1185.9 252.0 805.2 886.0 1 023.0 
1973 1 326.4 265.9 861.0 985.0 1 141.7 
1974 1 434.2 277.6 908.5 1 070.5 1 249.3 
1975 1 549.2 291.2 1 023.3 1 174.2 1 367.9 
1976 1718.0 310.4 1163.6 1311.9 1516.6 
1977 1918.3 335.4 1 286.7 1 472.9 1 704.7 
1978 2 163.9 363.1 1 389.1 1 647.1 1910.6 
1979 2 417.8 389.1 1 498.5 1 804.8 2 117.1 
1980 2 631.7 414.9 1 632.6 1 990.0 2 326.2 
1981 2 957.8 441.9 1 796.6 2 238.2 2 599.8 
1982 3 069.3 480.5 1 965.4 2 462.5 2 870.8 
1983 3 304.8 525.4 2 196.3 2 710.4 3 183.1 
Definiciones: 


M; = circulante + depósitos a la vista + cheques de viajero y otros depósitos a corto plazo (ODC). 
Mo = M; + transacciones de recompra (RC) entre bancos y eurodólares a corto plazo + saldos FMMM (fondos mutualistas del mer- 
cado monetario) + CAMM (cuentas de ahorro del mercado monetario) + ahorros y pequeños depósitos. 
M; = M: + depósitos a largo plazo + transacciones de recompra a plazo (RC a término) + FMMM institucional. 
L = M; + otros activos líquidos. 


TABLA 5.7 1) PNB; = —787.4723 + 8.0863 Mi: r2= 0.9912 
Regresiones PNB-oferta (77.9664) (0.2197) 

monetaria 127021283 2) PNB, = -44.0626 + 1.5875 Ma r2=0.9905 
(61.0134) (0.0448) 

3) B= 159.1366 + 1.2034 M3: r2=0.9943 
(42.9882) (0.0262) 

4) PNB, = 164.2071 + 1.0290 L r2 = 0.9938 


(44.7658) (0.0234) 


Nota: Las cifras entre paréntesis son los errores estándar estimados. 


TABLA 5.8 Consumo del bien X: 1 2 3 4 5 


Consumo del bien Y: 4 29 2.8 19 0.8 


5.16. Desde 1986, The Economist publica el Índice Big Mac como medida burda y divertida 
para saber si las monedas internacionales se sitúan en su tipo de cambio “correcto”, según 
la teoría de la paridad del poder adquisitivo (PPA). La PPA sostiene que con una unidad 
de moneda debe ser posible comprar la misma canasta de bienes en todos los países. Los 
partidarios de la PPA argumentan que, a la larga, las monedas tienden a moverse hacia su 
PPA. The Economist utiliza la hamburguesa Big Mac de McDonald's como canasta repre- 
sentativa, y presenta la información en la tabla 5.9. 

Considere el siguiente modelo de regresión: 


Y, =B1 + P2X¡+u; 
donde Y = tipo de cambio del día y X= PPA implícita del dólar. 
a) Si se mantiene la PPA, ¿qué valores de 6, y b2 esperaría a priori? 


140 Parte Uno Modelos de regresión uniecuacionales 


TABLA 5.9 

El estándar de la Tipo d S 2 y 

hamburguesa Precios de la hamburguesa Ad e de 

Fuente: McDonald's y Big Mac PPA' del día la moneda 

OS En implícita del dólar, local frente 

febrero de 200r En moneda local dólares del dólar 31de enero al dólar, % 
Arabia Saudita Riyal 9.00 2.40 2.80 3.75 -25 
Argentina Peso 8.25 2.65 2.56 3.11 -18 
Australia A$3.45 2.67 1.07 1.29 -17 
Brasil Real 6.4 3.01 1.99 2.13 —6 
Canadá C$3.63 3.08 1.13 1.18 -4 
Chile Peso 1670 3.07 519 544 -5 
China Yuán 11.0 1.41 3.42 7.77 —56 
Colombia Peso 6 900 3.06 2143 2 254 -5 
Corea del Sur Won 2 900 3.08 901 942 -4 
Costa Rica Colón 1 130 2.18 351 519 -32 
Dinamarca Corona danesa 27.75 4.84 8.62 5.74 +50 
Egipto Libra 9.09 1.60 2.82 5.70 =50 
Emiratos Árabes Unidos Dirham 10.0 2.72 3.11 3.67 -15 
Eslovaquia Corona 57.98 2.14 18.0 27.2 -34 
Estados Unidos $3.22 3.22 
Estonia Corona 30 2.49 9.32 12.0 -23 
Eurozona €2.94 3.82 1.10** 1.30** +19 
Filipinas Peso 85.0 1.74 26.4 48.9 —46 
Gran Bretaña £1.99 3.90 1.62ł 1.964 +21 
Hong Kong HK$12.0 1.54 3.73 7.81 -52 
Hungría Florín 590 3.00 183 197 -7 
Indonesia Rupia 15 900 1.75 4 938 9 100 -46 
Islandia Corona islándica 509 7.44 158 68.4 +131 
Japón ¥280 2.31 87.0 121 -28 
Letonia Lats 1.35 2.52 0.42 0.54 -22 
Lituania Litas 6.50 2.45 2.02 2.66 -24 
Malasia Ringgit 5.50 1.57 1.71 3.50 -51 
México Peso 29.0 2.66 9.01 10.9 -17 
Noruega Corona noruega 41.5 6.63 12.9 6.26 +106 
Nueva Zelanda NZ$4.60 3.16 1.43 1.45 -2 
Pakistán Rupia 140 2.31 43.5 60.7 -28 
Paraguay Guaraní 10000 1.90 3106 5250 -41 
Perú Nuevo Sol 9.50 2.97 2.95 3.20 -8 
Polonia Zloty 6.90 2.29 2.14 3.01 -29 
República Checa Corona 52.1 2.41 16.2 21.6 -25 
Rusia Rublo 49.0 1.85 15.2 26.5 -43 
Singapur S$3.60 2.34 1.12 1.54 -27 
Sri Lanka Rupia 190 1.75 59.0 109 46 
Sudáfrica Rand 15.5 2.14 4.81 7.25 -34 
Suecia Corona sueca 32.0 4.59 9.94 6.97 -43 
Suiza Franco suizo 6.30 5.05 1.96 1.25 +57 
Tailandia Baht 62.0 1.78 19.3 34.7 -45 
Taiwan Nuevo dólar taiwanés 75.0 2.28 23.3 32.9 -29 
Turquía Lira 4.55 3.22 1.41 1.41 nil 
Ucrania Grivnia 9.00 1.71 2.80 5.27 -47 
Uruguay Peso 55.0 2.17 17.1 25.3 -33 
Venezuela Bolívar 6 800 1.58 2112 4 307 -51 


* Paridad del poder adquisitivo: precio local entre el precio en Estados Unidos. 


** Dólares por euro. 


t Promedio de Nueva York, Chicago, San Francisco y Atlanta. 


# Dólares por libra. 


$ Promedio ponderado de precios en la eurozona. 


TABLA 5.10 
IPC e IPP, Estados 
Unidos, 1980-2006 


Fuente: Economic Report of the 
President, 2007, tablas B-62 y 
B-65. 


5.19. 
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b) ¿Los resultados de la regresión apoyan sus expectativas? ¿Qué prueba formal aplica 
para demostrar su hipótesis? 


c) ¿The Economist debe continuar publicando el Índice Big Mac? ¿Por qué? 


. Consulte los datos del examen SAT del ejercicio 2.16. Suponga que desea predecir las 


calificaciones de los hombres en matemáticas (Y) con base en las calificaciones obteni- 
das por las mujeres en esa misma materia (X) con la siguiente regresión: 


Y, = pı + BX; + us 
a) Estime el modelo anterior. 
b) De los residuos estimados, verifique si se mantiene el supuesto de normalidad. 


c) Ahora pruebe la hipótesis de que 62 = 1, es decir, que existe una correspondencia uno a 
uno entre las calificaciones de matemáticas obtenidas por los hombres y las mujeres. 


d) Prepare la tabla ANOVA para este problema. 


. Repita el ejercicio del problema anterior pero ahora que Y y X representen las calificacio- 


nes obtenidas por hombres y mujeres en lectura crítica, respectivamente. 


La tabla 5.10 presenta los datos anuales correspondientes al índice de precios al consu- 
midor (IPC) y al índice de precios al mayoreo (IPM), también conocido como índice de 
precios al productor (IPP), de la economía estadounidense durante el periodo 1980-2006. 


IPP (total de 
IPC total bienes terminados) 
1980 82.4 88.0 
1981 90.9 96.1 
1982 96.5 100.0 
1983 99.6 101.6 
1984 103.9 103.7 
1985 107.6 104.7 
1986 109.6 103.2 
1987 113.6 105.4 
1988 118.3 108.0 
1989 124.0 113.6 
1990 130.7 119.2 
1991 136.2 121.7 
1992 140.3 1232 
1993 144.5 124.7 
1994 148.2 125,5 
1995 152.4 127.9 
1996 156.9 131.3 
1997 160.5 131.8 
1998 163.0 130.7 
1999 166.6 133.0 
2000 172.2 138.0 
2001 UTA 140.7 
2002 179.9 138.9 
2003 184.0 143.3 
2004 188.9 148.5 
2005 195.3 155,7 


2006 201.6 160.3 
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a) Grafique el IPC en el eje vertical y el IPM en el horizontal. A priori, ¿qué tipo de rela- 
ción espera entre los dos índices? ¿Por qué? 

b) Suponga que desea predecir un índice con base en el otro. ¿Cuál utilizaría como regre- 
sada y cuál como regresora? ¿Por qué? 

c) Efectúe la regresión que eligió en el inciso b). Muestre los resultados usuales. Pruebe 
la hipótesis de que existe una relación uno a uno entre ambos índices. 

d) De los residuos obtenidos de la regresión de c), ¿se puede abrigar la hipótesis de que 
el verdadero término de error está normalmente distribuido? Muestre las pruebas 
que utilizó. 

5.20 La tabla 5.11 presenta datos sobre el índice de mortalidad por cáncer pulmonar (100 = 
promedio) y el índice de tabaquismo (100 = promedio) correspondientes a 25 grupos 
ocupacionales. 

a) Trace la gráfica del índice de mortalidad por cáncer sobre el índice de tabaquismo. 
¿Qué pauta general observa? 

b) Sea Y = índice de mortalidad por cáncer y X = índice de tabaquismo; estime un mo- 
delo de regresión lineal y obtenga las estadísticas de regresión acostumbradas. 

c) Pruebe la hipótesis que el tabaquismo no tiene influencia sobre el cáncer pulmonar con 
a = 5%. 

d) ¿Cuáles son las ocupaciones de mayor riesgo en función de la mortalidad por cáncer 
pulmonar? ¿Puede ofrecer algunas razones de por qué ocurre así? 

e) ¿Existe algún modo de incorporar la categoría de ocupación explícitamente en el aná- 
lisis de regresión? 


TABLA 5.11 


i 7 Ocupación Tabaquismo Cáncer 

Tabaquismo y cáncer 

pulmonar Agricultores, silvicultores, pescadores Da 84 
Mineros y canteros IBZ 116 

Hucntehttp://libistat cm edu! Productores de gas, coque y sustancias químicas 117 123 

DASL/Datafiles/SmokingandCar- Dro quctores de vidrio y cerámica 94 128 

cer.html. A a ES 
Trabajadores de hornos, forjas y fundiciones 116 155 
Trabajadores de la industria eléctrica y electrónica 102 101 
Ingeniería y oficios relacionados 111 118 
Trabajadores de la industria maderera 93 11 
Trabajadores de la industria del cuero 88 104 
Trabajadores textiles 102 88 
Trabajadores de la industria del vestido 91 104 
Trabajadores de la industria de alimentos, bebidas y tabaco 104 129 
Trabajadores de la industria de papel e impresos 107 86 
Fabricantes de otros productos 112 96 
Trabajadores de la industria de construcción 113 144 
Pintores y decoradores 110 139 
Conductores de vehículos de motor, grúas, etcétera 125 MB 
Jornaleros no incluidos en otras clasificaciones 113 146 
Trabajadores de la industria de transporte y comunicaciones 115 128 
Almacenistas, encargados de tiendas, etcétera 105 115 
Trabajadores administrativos 87 79 
Trabajadores de ventas 91 85 
Trabajadores de servicios, deportes y recreación 100 120 
Administradores y gerentes 76 60 


Artistas y trabajadores profesionales y técnicos 66 51 
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Apéndice 5A 


5A.1 Distribuciones de probabilidad relacionadas 
con la distribución normal 


Las distribuciones £, ji cuadrada (2) y F, cuyas características primordiales se analizan en el apéndice A, 
están estrechamente relacionadas con la distribución normal. En vista de que se hará un uso extensivo 
de estas distribuciones de probabilidad en los siguientes capítulos, se resumirán sus relaciones con la dis- 
tribución normal en el siguiente teorema; las pruebas, que rebasan el objetivo de este libro, se pueden 
encontrar en la bibliografía.' 


Teorema 5.1. SiZ¡,Z>,...,Z, son variables aleatorias distribuidas normalmente y de manera inde- 
pendiente de modo que Z; ~ N(p;, o£), entonces la suma Z = Y k; Z;, donde k; son constantes no todas 
nulas, está también normalmente distribuida, con una media ) k;ui y una varianza }- ka es decir, 
Z ~ NO kini, X k?o?). Nota: u representa el valor medio. 


En resumen, las combinaciones lineales de las variables normales están ellas mismas distribuidas 
normalmente. Por ejemplo, si Zı y Z2 están distribuidas de manera normal e independiente conforme 
Zi ~ N(0, 2) y Z2 ~ N(8, 8.5), entonces la combinación lineal Z = 0.8Z; + 0.2Z, también está normalmente 
distribuida con una media = 0.8(10) + 0.2(8) = 9.6 y una varianza = 0.64(2) + 0.04(1.5) = 1.34; es decir, 
Z~ (9.6, 1.34). 


Teorema 5.2. Si Zi, Z2, . . . , Zn están normalmente distribuidas pero no son independientes, la suma 
Z = Y ki Zi, donde las k; son constantes y no todas igual a cero, también está normalmente distribuida, 
con una media >> k; u; y una varianza [D 20? +29 kik; cov (Zi, Zj), i Æ j]. 


Por tanto, si Z;  N(6, 2) y Z2 ~ N(7, 3) y cov(Z¡ Z2) = 0.8, entonces la combinación lineal 0.6Z, + 0.422 
también está normalmente distribuida con media = 0.6(6) + 0.4(7) = 6.4 y varianza = [0.36(2) + 0.16(3) 
+ 2(0.6)1(0.4)(0.8)] = 1.584. 


Teorema 5.3. SiZ¡,Z>,...,Z, son variables aleatorias distribuidas de manera normal e independiente 
de manera que cada Z; ~ N(0, 1), es decir, es una variable normal estandarizada, entonces Y” Za = 
Z? + Z% +--+- + ZŽ sigue la distribución ji cuadrada con n gl. De manera simbólica, )7 Z? ~ x2, donde 
n representa los grados de libertad, gl. 


En resumen, “la suma de los cuadrados de las variables normales estandarizadas independientes tiene 


una distribución ji cuadrada, con grados de libertad iguales al número de términos de la suma”.? 


Teorema 5.4. Si Zi, Z2, ... , Zn son variables aleatorias distribuidas independientemente y cada una 
sigue una distribución ji cuadrada con A; gl, entonces la suma Y" Z; = Z1 +Z2+- + - + Zn también sigue 
una distribución ji cuadrada, con k = )” k; gl. 


Por tanto, si Z1 y Z) son variables x? independientes con gl de kı y kz, respectivamente, entonces 
Z= Z¡ + Z también es una variable x? con (kı + ko) grados de libertad. Lo anterior se conoce como pro- 
piedad reproductiva de la distribución x?. 


1 Hay pruebas de los distintos teoremas en Alexander M. Mood, Franklin A. Graybill y Duane C. Bose, Intro- 
duction to the Theory of Statistics, 3a. ed., McGraw-Hill, Nueva York, 1974, pp. 239-249. 


2 Ibid., p. 243. 
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Teorema 5.5. Si Z¡ es una variable normal estandarizada [Z; ~ N(0, 1)] y otra variable Z) sigue la 
distribución ji cuadrada con k gl y es independiente de Z4, entonces la variable definida como 


a Z1 BE- Vk S Variable normal estandarizada i 
VZ¿/Vk  NZ2 „Variable independiente ji cuadrada /gl i 


sigue la distribución ź de Student, con k gl. Nota: Esta distribución se analiza en el apéndice A y se ilustra 
en el capítulo 5. 


A propósito, observe que, conforme k, los gl, se incrementa de manera indefinida (es decir, conforme 
k — 00), la distribución ź de Student se aproxima a la distribución normal estandarizada. Por convención, 
la notación ft; significa la distribución £ de Student o la variable con k gl. 


Teorema 5.6. Si Zı y Z2 son variables ji cuadrada independientemente distribuidas, con kı y k2 el, 
respectivamente, entonces la variable 


tiene la distribución F con kı y k» grados de libertad, donde kı se conocen como los grados de libertad 
del numerador y kz como los grados de libertad del denominador. 


De nuevo, por convención, la notación F;,, ,, significa que es una variable F con kı y k2 grados de liber- 
tad, y los gl del numerador se colocan primero. 

En otras palabras, el teorema 5.6 enuncia que la variable F es sólo la razón de dos variables ji cuadrada 
distribuidas independientemente, divididas entre sus respectivos grados de libertad. 


Teorema 5.7. El cuadrado de la variable £ (de Student), con k gl, tiene una distribución F, con kı = 1 
gl en el numerador y kz = k gl en el denominador.* Es decir, 


IP de 
Observe que para que sea válida esta igualdad, los gl del numerador de la variable F deben ser 1. Por 
tanto, Fi 4 = 1h o F¡ 23 = th, y así sucesivamente. 


Como se mencionó, veremos la utilidad práctica del teorema anterior conforme avancemos. 


Teorema 5.8. Para un valor grande de gl del denominador, la multiplicación de los gl del numerador 
por el valor F es más o menos igual al valor de ji cuadrada con los gl del numerador. Así, 


i laa = Je conforme n —> 00 


Teorema 5.9. Para un número lo bastante grande de gl, la distribución ji cuadrada se aproxima me- 
diante la distribución normal estándar de la siguiente forma: 


Z=y2x?-v2k-=1-=“N(0, 1) 


donde k denota los gl. 


3 Para ver una prueba, consulte Henri Theil, Introduction to Econometrics, Prentice Hall, Englewood Cliffs, 
Nueva Jersey, 1978, pp. 237-245. 
4 Para ver una prueba, consulte las ecuaciones (5.3.2) y (5.9.1). 
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5A.2 Derivación de la ecuación (5.3.2) 


Sea 
Bo = Ba (Êz E By x 
Zi = = (1) 
ee (f2) ol 
Y 
¿2 
Zı=(n— a (2) 


Siempre que se conozca o, Zi sigue una distribución normal estándar; es decir, Zı ~ N(0, 1). (¿Por qué?) 
Z, sigue la distribución x? con (n — 2) gl.5 Además, puede demostrarse que Z, está independientemente 
distribuida de Z4. Por consiguiente, en virtud del teorema 5.5, la variable 


— Ziyn —2 
-a 6) 


sigue la distribución £ con n — 2 gl. De la sustitución de (1) y (2) en (3), se obtiene la ecuación (5.3.2). 


5A.3 Derivación de la ecuación (5.9.1) 
La ecuación (1) muestra que Zı ~ N(0, 1). Por consiguiente, por el teorema 5.3, la cantidad precedente 


(Ê -B Ex? 


z= - 
(of 


sigue la distribución x? con 1 gl. Como se mostró en la sección 5A.1, 


E 


A 5 g2 


también sigue la distribución x? con n — 2 gl. Además, como se vio en la sección 4.3, Z, está distribuida 
independientemente de Z¡. Entonces, al aplicar el teorema 5.6, se tiene que 


= Zm E (BB (Ex) 
Za n-2). NRNM-2) 


sigue la distribución F con 1 y n — 2 gl, respectivamente. Según la hipótesis nula Ho: 62 = 0, la razón F 
anterior se reduce a la ecuación (5.9.1). 


5A.4 Derivación de las ecuaciones (5.10.2) y (5.10.6) 


Varianza de la predicción media 
Dado X; = Xo, la verdadera predicción media E(Yo | Xo) está dada por 


E(Yo | Xo) = B1 + B2X0 (1) 


5 Para ver una prueba, consulte Robert V. Hogg y Allen T. Craig, Introduction to Mathematical Statistics, 2a. 
ed., Macmillan, Nueva York, 1965, p. 144. 

6 Para una demostración, véase J. Johnston, Econometric Methods, McGraw-Hill, 3a. ed., Nueva York, 1984, 
pp. 181-182. (Se requieren conocimientos de álgebra matricial para entender la prueba.) 
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Estimamos (1) a partir de 
Yo = ĝi + $2X0 (2) 
Al obtener el valor esperado de (2), dado Xo, obtenemos 


E(Yo) = E(B1) + E(B2)Xo 
= B1 + B2Xo 


porque f y Ê» son estimadores insesgados. Por consiguiente, 
E(Ío) = E(Yo | Xo) = Bi + B2Xo 6) 


Es decir, Y, es un predictor insesgado de E(Yo | Xo). 
Ahora, con la propiedad de que var (a + b) = var (a) + var(b) + 2 cov (a, b), obtenemos 


var (Yo) = var(B1) + var (Ê2)X6 + 2 cov(B1B2)X0 (4) 


Con las fórmulas para varianzas y covarianza de Bi y Ba dadas en (3.3.1), (3.3.3) y (3.3.9), y al reordenar 
términos, obtenemos 


var (Yo) =0? $ + HZ = (510:2) 


Varianza de la predicción individual 


Deseamos predecir una Y individual correspondiente a X = Xo, es decir, queremos obtener: 
Yo = B1 + 2X0 + uo (5) 
Predecimos de la siguiente forma: 
Yo = ĝi + Ê2Xo (6) 
El error de predicción, Yo — fi es 


Yo — Yo = B1 + B2Xo + u0 — (B1 + B2X0) 
= (Bı — B1) +(B2 — Ê2)Xo + uo (7) 


Por consiguiente, 


E(Yo — Yo) = E(81 — B1) + E(B2 — Ê2)Xo — Eluo) 
= 0) 


porque Âi, $ son insesgados, Xo es un número fijo y E(u0) es cero por suposición. 

Al elevar (7) al cuadrado en ambos lados y tomar valores esperados, obtenemos var (Yo — Yo) = 
var (Ên) +% var(B2) + 2Xo cov(B1, B2) + var (uo). Con las fórmulas de varianza y covarianza para $, y 
B> dadas antes, y al observar que var (uy = o°), obtenemos 


co 7] = (5.10.6) 


==) =00 | aa 
var (Yo — Yo) [i++ Ne 


Capítulo 


Extensiones del 
modelo de regresión 
lineal con dos variables 


Algunos aspectos del análisis de regresión lineal se insertan bien en el marco del modelo de 
regresión lineal con dos variables que hemos analizado hasta ahora. Primero consideraremos 
la regresión a través del origen, es decir, una situación en la cual el término del intercepto, 
ßı, está ausente del modelo. Luego veremos el tema de las unidades de medición, o la forma 
como se midieron X y Y, y cómo un cambio en las unidades de medición afecta los resultados de 
la regresión. Por último, abordaremos el tema de la forma funcional del modelo de regresión 
lineal. Hasta el momento, consideramos modelos lineales en los parámetros y en las variables. 
Sin embargo, recuerde que la teoría de regresión de los capítulos anteriores sólo exige linealidad 
en los parámetros; las variables pueden o no entrar linealmente en el modelo. Al considerar mo- 
delos que son lineales en los parámetros pero no necesariamente en las variables, en este capítulo 
mostraremos la forma como el modelo de dos variables resuelve algunos problemas prácticos de 
Interés. 

Una vez entendidas las ideas de este capítulo, su extensión a los modelos de regresión múltiple 
es muy sencilla, como comprobaremos en los capítulos 7 y 8. 


6.1 Regresión a través del origen 


Hay ocasiones en las cuales la función de regresión poblacional (FRP) de dos variables adquiere 
la siguiente forma: 


Y; = BX¡+u; (6.1.1) 


En este modelo, el término del intercepto está ausente o es cero, lo cual explica el nombre: re- 
gresión a través del origen. 

A manera de ilustración consideremos el modelo de asignación de precios de activos de capi- 
tal (CAPM, del inglés capital asset pricing model) de la teoría moderna de portafolios, la cual, 
en su versión de prima por riesgo, se expresa como! 


(ER; = rf) = Bi(ERn rf) (6.1 .2) 


1 Véase Haim Levy y Marshall Sarnat, Portfolio and Investment Selection: Theory and Practice, Prentice-Hall 
International, Englewood Cliffs, Nueva Jersey, 1984, capítulo 14. 
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FIGURA 6.1 


Riesgo sistemático. 


donde ER; = tasa esperada de rendimiento del título i. 
ER, = tasa esperada de rendimiento del portafolios del mercado como la representa, por 
ejemplo, el índice compuesto de acciones S&P 500. 

rf = tasa de rendimiento libre de riesgo, por ejemplo, el rendimiento de los bonos del 
Tesoro estadounidense a 90 días. 

Bi = el coeficiente Beta, una medida de riesgo sistemático, es decir, el riesgo que no se 
ha eliminado con la diversificación. Asimismo, es una medida del grado en el cual la 
i-ésima tasa de rendimiento del título se mueve con el mercado. Un £; > 1 implica 
un título volátil o riesgoso, mientras que £; < 1 es un título seguro. (Vota: No con- 
funda esta f; con el coeficiente de la pendiente de la regresión con dos variables, 


Bo.) 


Si los mercados de capitales funcionan de manera eficiente, el CAPM postula que la prima 
esperada por el riesgo del título (= ER; — ry es igual a ese coeficiente £ del título multiplicado 
por la prima esperada del riesgo del mercado (= ER), — rf). Si el CAPM se mantiene se da la 
situación de la figura 6.1. La línea que aparece en la figura se conoce como línea del mercado 
de valores (LMV). 

Para fines empíricos, (6.1.2) suele expresarse así: 


Ri- rfp = BiR m z rf) +4; (6.1.3) 


Ri = rf = di + B(Rm = rf) + ui (6.1.4) 


Este último modelo se conoce como el Modelo del Mercado.? Si el CAPM es válido, se espera 
que a; sea cero. (Véase la figura 6.2.) 

Observe que en (6.1.4) la variable dependiente, Y, es (R; — rf), y la variable explicativa, X, es 
Bi, el coeficiente de volatilidad, y no (Rm — rf). Por consiguiente, para realizar la regresión (6.1.4), 
se debe estimar primero f;, el cual se obtiene por lo general de la línea característica, como 
describimos en el ejercicio 5.5. (Para mayores detalles véase el ejercicio 8.28.) 

Como muestra este ejemplo, algunas veces la teoría que sirve de base requiere que el término 
del intercepto esté ausente del modelo. La hipótesis del ingreso permanente de Milton Friedman, 
que afirma que el consumo permanente es proporcional al ingreso permanente, es otro caso en 
el que el modelo de intercepto cero puede ser apropiado, como también en la teoría del análisis 


ER;-1f 


Línea del mercado de valores 


Bi 


2 Véase, por ejemplo, Diana R. Harrington, Modern Portfolio Theory and the Capital Asset Pricing Model: A User's 
Guide, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1983, p. 71. 


FIGURA 6.2 

El Modelo del Mercado 
de la teoría de portafolios 
(con el supuesto de que 
Qi = 0). 
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Rity 


Prima por riesgo 
del título 


Riesgo sistemático 


de costos, que postula que la variable costo de producción es proporcional a la producción; y 
algunas versiones de la teoría monetarista que afirman que la tasa de cambio de los precios (es 
decir, la tasa de inflación) es proporcional a la tasa de cambio de la oferta monetaria. 

¿Cómo se estiman modelos como (6.1.1) y qué problemas presentan? Para responder, primero 
escribimos la FRM de (6.1.1), a saber: 

Y, = B>X; +; (6.1.5) 

Ahora aplicamos el método MCO a (6.1.5) y se obtienen las siguientes fórmulas para Ba y su 

varianza (las pruebas se presentan en el apéndice 6A, sección 6A.1): 


A X¡Y; 
2 = e (6.1.6) 
A o? 
var (B2) = SZ (6.1.7) 
donde o? se estima con 
22 
5? = Ln (6.1.8) 


Es interesante comparar estas fórmulas con las obtenidas cuando se incluye el término del inter- 
cepto en el modelo: 


pa = 49 (3.1.6) 
Xi 
2 
var ($) = E (3.3.1) 
A? 
padi (3.3.5) 
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Deben ser obvias las diferencias entre estos dos conjuntos de fórmulas: en el modelo sin 
término de intercepto se utilizan sumas de cuadrados simples y productos cruzados, pero en el 
modelo con intercepto, se utilizan sumas de cuadrados ajustadas (de la media) y productos cru- 
zados. Segundo, los gl para calcular 6? son (n — 1) en el primer caso y (n — 2) en el segundo. 
(¿Por qué?) 

Aunque el modelo sin intercepto o con intercepto cero puede ser apropiado en algunas oca- 
siones, deben observarse algunas características de este modelo. Primero, Y” ů;, que es siempre 
cero en el modelo con intercepto (el modelo convencional), no necesita serlo cuando ese término 
está ausente. En resumen, Y ù; no necesita ser cero en la regresión a través del origen. Segundo, 
r?, el coeficiente de determinación presentado en el capítulo 3, que siempre es no negativo en 
el modelo convencional, en ocasiones puede volverse negativo en el modelo sin intercepto. Este 
resultado anómalo surge porque el r? que presentamos en el capítulo 3 supone explícitamente 
que el intercepto está incluido en el modelo. Por consiguiente, el r? calculado convencional- 
mente puede no ser apropiado en los modelos de regresión a través del origen.? 


r? para el modelo de regresión a través del origen 


Como recién mencionamos y más adelante analizaremos en mayor detalle en el apéndice 6A, 
sección 6A.1, el r? convencional del capítulo 3 no es apropiado en regresiones que no incluyan 
o no consideren el intercepto. Pero se puede calcular para tales modelos, lo que se conoce como 
el r? simple, el cual se define como 
(EY 

LELY 
Nota: Se trata de sumas de cuadrados simples (es decir, no corregidas por la media) y de produc- 
tos cruzados. 

A pesar de que este r° simple satisface la relación 0 < r? < 1, no es directamente comparable 
con el valor r? convencional. Por esta razón, algunos autores no presentan el valor r? en los mo- 
delos de regresión con intercepto cero. 

Debido a las características especiales de este modelo, se debe tener mucho cuidado al utili- 
zar el modelo de regresión con intercepto cero. A menos que haya una expectativa a priori muy 
sólida, es aconsejable apegarse al modelo convencional con presencia de intercepto. Esto tiene 
una doble ventaja. Primero, si se incluye en el modelo el término del intercepto pero es estadís- 
ticamente no significativo (es decir, estadísticamente igual a cero), para todos los fines prácticos 
se tiene una regresión a través del origen.* Segundo y más importante, si el modelo sí tiene un 
intercepto pero insistimos en ajustar una regresión a través del origen, cometeríamos un error de 
especificación. Veremos esto en detalle en el capítulo 7. 


r? simple = (6.1.9) 


EJEMPLO 6.1 


La tabla 6.1 presenta datos mensuales sobre los rendimientos excedentes Y:(%) de un índice 
de 104 acciones del sector de bienes de consumo cíclico y los rendimientos excedentes X{%) 
del índice de todo el mercado de valores en el Reino Unido, correspondientes al periodo 1980- 
1999, para un total de 240 observaciones.? Por rendimientos excedentes se entiende el rendi- 
miento superior al que ofrece un activo sin riesgo (véase el modelo CAPM). 


3 Para un análisis adicional, véase Dennis J. Aigner, Basic Econometrics, Prentice-Hall, Englewood Cliffs, Nueva 
Jersey, 1971, pp. 85-88. 

4 Henri Theil señala que si el intercepto efectivamente está ausente, el coeficiente de la pendiente puede esti- 
marse con mucha más precisión que cuando el término del intercepto está incluido. Véase su Introduction to 
Econometrics, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1978, p. 76. Véase también el ejemplo numérico 
a continuación. 

5 Estos datos, provenientes originalmente del banco de datos DataStream, se reproducen de Christiaan Heij 
et al., Econometric Methods with Applications in Business and Economics, Oxford University Press, Oxford, Reino 
Unido, 2004. 
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TABLA 6.1 
OBS Y X OBS Y X 

1980:01 6.08022852 7.263448404 1984:12 3.52786616 3.191554763 
1980:02 —0.924185461 6.339895504 1985:01 4.554587707 3.907838688 
1980:03 —3.286174252 —9.285216834 1985:02 5.365478677 —1.708567484 
1980:04 5.211976571 0.793290771 1985:03 4.525231564 0.435218492 
1980:05 —16.16421111 —2.902420985 1985:04 2.944654344 0.958067845 
1980:06 —1.054703649 8.613150875 1985:05 —0.268599528 1.095477375 
1980:07 11.17237699 3.982062848 1985:06 —3.661040481 —6.816108909 
1980:08 —11.06327551 —1.150170907 1985:07 —4.540505062 2.785054354 
1980:09 —16.77699609 3.486125868 1985:08 9.195292816 3.900209023 
1980:10 —7.021834032 4.329850278 1985:09 —1.894817019 —4.203004414 
1980:11 —9.71684668 0.936875279 1985:10 12.00661274 5.60179802 

1980:12 5.215705717 —5.202455846 1985:11 1.233987382 1.570093976 
1981:01 —6.612000956 —2.082757509 1985:12 —1.446329607 —1.084427121 
1981:02 4.264498443 2.728522893 1986:01 6.023618851 0.778669473 
1981:03 4.916710821 0.653397106 1986:02 10.51235756 6.470651262 
1981:04 22.20495946 6.436071962 1986:03 13.40071024 8.953781192 
1981:05 —11.29868524 —4.259197932 1986:04 —7.796262998 —2.387761685 
1981:06 —5.770507783 0.543909707 1986:05 0.211540446 —2.873838588 
1981:07 —5.217764717 —0.486845933 1986:06 6.471111064 3.440269098 
1981:08 16.19620175 2.843999508 1986:07 —9.037475168 —5.891053375 
1981:09 —17.16995395 —16.4572142 1986:08 —5.47838091 6.375582004 
1981:10 1.105334728 4.468938171 1986:09 —6.756881852 —5.734839396 
1981:11 11.6853367 5.885519658 1986:10 —2.564960223 3.63088408 

1981:12 —2.301451728 —0.390698164 1986:11 2.456599468 —1.31606687 

1982:01 8.643728679 2.499567896 1986:12 1.476421303 3.521601216 
1982:02 —11.12907503 —4.033607075 1987:01 17.0694004 8.673412896 
1982:03 1.724627956 3.042525777 1987:02 7.565726727 6.914361923 
1982:04 0.157879967 0.734564665 1987:03 —3.239325817 —0.460660854 
1982:05 —1.875202616 2.779732288 1987:04 3.662578335 4.295976077 
1982:06 —10.62481767 —5.900116576 1987:05 7.157455113 7.719692529 
1982:07 —5.761135416 3.005344385 1987:06 4.774901623 3.039887622 
1982:08 5.481432596 3.954990619 1987:07 4.23770166 2.510223804 
1982:09 —17.02207459 2.547127067 1987:08 —0.881352219 —3.039443563 
1982:10 7.625420708 4.329008106 1987:09 11.49688416 3.787092018 
1982:11 —6.575721646 0.191940594 1987:10 —35.56617624 —27.86969311 

1982:12 —2.372829861 —0.92167555 1987:11 —14.59137369 —9.956367094 
1983:01 17.52374936 3.394682577 1987:12 14.87271664 7.975865948 
1983:02 1.354655809 0.758714353 1988:01 1.748599294 3.936938398 
1983:03 16.26861049 1.862073664 1988:02 —0.606016446 —0.32797064 

1983:04 —6.074547158 6.797751341 1988:03 —6.078095523 —2.161544202 
1983:05 —0.826650702 —1.699253628 1988:04 3.976153828 2.721787842 
1983:06 3.807881996 4.092592402 1988:05 —1.050910058 —0.514825422 
1983:07 0.57570091 —2.926299262 1988:06 3.317856956 3.128796482 
1983:08 3.755563441 1.773424306 1988:07 0.407100105 0.181502075 
1983:09 —5.365927271 —2.800815667 1988:08 —11.87932524 —7.892363786 
1983:10 —3.750302815 —1.505394995 1988:09 —8.801026046 3.347081899 
1983:11 4.898751703 4.18696284 1988:10 6.784211277 3.158592144 
1983:12 4.379256151 1.201416981 1988:11 —10.20578119 —4.816470363 
1984:01 16.56016188 6.769320788 1988:12 —6.73805381 —0.008549997 
1984:02 1.523127464 —1.686027417 1989:01 12.83903643 13.46098219 

1984:03 1.0206078 5.245806105 1989:02 3.302860922 —0.764474692 
1984:04 —3.899307684 1.728710264 1989:03 —0.155918301 2.298491097 
1984:05 —14.32501615 —7.279075595 1989:04 3.623090767 0.762074588 
1984:06 3.056627177 —0.77947067 1989:05 —1.167680873 —0.495796117 
1984:07 —0.02153592 —2.439634487 1989:06 —1.221603303 1.206636013 
1984:08 3.355102212 8.445977813 1989:07 5.262902744 4.637026116 
1984:09 0.100006778 1.221080129 1989:08 4.845013219 2.680874116 
1984:10 1.691250318 2.733386772 1989:09 —5.069564838 —5.303858035 
1984:11 8.20075301 5.12753329 1989:10 —13.57963526 —7.210655599 


(continúa) 


TABLA 6.1 


(continuación) 

OBS Y X OBS Y X 
1989:11 1.100607603 5.350185944 1994:12 —4.225370964 0.264280259 
1989:12 4.925083189 4.106245855 1995:01 —6.302392617 —2.420388431 
1990:01 —2.532068851 —3.629547374 1995:02 1.27867637 0.138795213 
1990:02 —6.601872876 —5.205804299 1995:03 10.90890516 3.231656585 
1990:03 —1.023768943 —2.183244863 1995:04 2.497849434 2.215804682 
1990:04 —7.097917266 —5.408563794 1995:05 2.891526594 3.856813589 
1990:05 6.376626925 10.57599169 1995:06 —3.773000069 —0.952204306 
1990:06 1.861974711 —0.338612099 1995:07 8.776288715 4.020036363 
1990:07 —5.591527585 —2.21316202 1995:08 2.88256097 1.423600345 
1990:08 —15.31758975 —8.476177427 1995:09 2.14691333 —0.037912571 
1990:09 —10.17227358 —7.45941471 1995:10 —4.590104662 —1.17655329 
1990:10 —2.217396045 —0.085887763 1995:11 —1.293255187 3.760277356 
1990:11 5.974205798 5.034770534 1995:12 —4.244101531 0.434626357 
1990:12 —0.857289036 —1.767714908 1996:01 6.647088904 1.906345103 
1991:01 —3.780184589 0.189108456 1996:02 1.635900742 0.301898961 
1991:02 20.64721437 10.38741 504 1996:03 7.8581899 —0.314132324 
1991:03 10.94068018 2.921913827 1996:04 0.789544896 3.034331741 
1991:04 —3.145639589 0.971720188 1996:05 —0.907725397 —1.497346299 
1991:05 —3.142887645 —0.4317819 1996:06 —0.392246948 —0.894676854 
1991:06 —1.960866141 —3.342924986 1996:07 —1.035896351 —0.532816274 
1991:07 7.330964031 5.242811509 1996:08 2.556816005 3.863737088 
1991:08 7.854387926 2.880654691 1996:09 3.131830038 2.118254897 
1991:09 2.539177843 —1.121472224 1996:10 —0.020947358 —0.853553262 
1991:10 —1.233244642 —3.969577956 1996:11 —5.312287782 1.770340939 
1991:11 —11.7460404 —5.707995062 1996:12 —5.196176326 1.702551635 
1991:12 1.078226286 1.502567049 1997:01 —0.753247124 3.465753348 
1992:01 5.937904622 2.599565094 1997:02 —2.474343938 1.115253221 
1992:02 4.113184542 0.135881087 1997:03 2.47647802 —2.057818461 
1992:03 —0.655199392 —6.146138064 1997:04 —1.119104196 3.57089955 
1992:04 15.28430278 10.45736831 1997:05 3.352076269 1.953480438 
1992:05 3.994517585 1.415987046 1997:06 —1.910172239 2.458700404 
1992:06 —11.94450998 —8.261109424 1997:07 0.142814607 2.992341297 
1992:07 —2.530701327 —3.778812167 1997:08 10.50199263 —0.457968038 
1992:08 —9.842366221 —5.386818488 1997:09 12.98501943 8.111278967 
1992:09 18.11573724 11.19436372 1997:10 —4.134761655 —6.967124504 
1992:10 0.200950206 3.999870038 1997:11 —4.148579856 —0.155924791 
1992:11 1.125853097 3.620674752 1997:12 —1.752478236 3.853283433 
1992:12 7.639180786 2.887222251 1998:01 —3.349121498 7.379466014 
1993:01 2.919569408 1.336746091 1998:02 14.07471304 4.299097886 
1993:02 —1.062404105 1.240273846 1998:03 7.791650968 3.410780517 
1993:03 1.292641409 0.407144312 1998:04 5.154679109 —0.081494993 
1993:04 0.420241 384 —1.734930047 1998:05 3.293686179 —1.613131159 
1993:05 —2.514080553 1.111533687 1998:06 —13.25461802 —0.397288954 
1993:06 0.419362276 1.354127742 1998:07 —7.714205916 —2.237365283 
1993:07 4.374024535 1.943061568 1998:08 —15.26340483 —12.4631993 
1993:08 1.733528075 4.961979827 1998:09 —15.22865141 —5.170734985 
1993:09 —3.659808969 —1.618729936 1998:10 15.96218038 11.70544788 
1993:10 5.85690764 4.215408608 1998:11 —8.684089113 —0.380200223 
1993:11 —1.365550294 1.880360165 1998:12 17.13842369 4.986705187 
1993:12 —1.346979017 5.826352413 1999:01 —1.468448611 2.493727994 
1994:01 12.89578758 2.973540693 1999:02 8.5036 0.937105259 
1994:02 —5.346700561 —5.479858563 1999:03 10.8943073 4.280082506 
1994:03 —7.614726564 —5.784547088 1999:04 13.03497394 3.960824402 
1994:04 10.22042923 1.157083438 1999:05 —5.654671597 —4.499198079 
1994:05 —6.928422261 —6.356199493 1999:06 8.321969316 3.656745699 
1994:06 —5.065919037 —0.843583888 1999:07 0.507652273 —2.503971473 
1994:07 7.483498556 5.779953224 1999:08 —5.022980561 —0.121901923 
1994:08 1.828762662 3.298130184 1999:09 —2.305448839 —5.388032432 
1994:09 —5.69293279 —7.110010085 1999:10 —1.876879466 4.010989716 
1994:10 —2.426962489 2.968005597 1999:11 1.348824769 6.265312975 
1994:11 2.125100668 —1.531245158 1999:12 —2.64164938 4.045658427 
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EJEMPLO 6.1 En primer lugar ajustamos el modelo (6.1.3) a estos datos. Con EViewsó obtuvimos los siguientes 
(continuación) resultados de regresión, que se presentan en el formato estándar de EViews. 

Variable dependiente: Y 

Método: mínimos cuadrados 

Muestra: 1980M01 1999M12 

Observaciones incluidas: 240 


Coeficiente Error estándar Estadístico t Probabilidad 
X 1.155512 0.074396 15.53200 0.0000 
R cuadrada 0.500309 Media de la variable dependiente 0.499826 
R cuadrada ajustada! 0.500309 Desviación estándar de la variable 7.849594 
dependiente 
Error estándar de regresión 5.548786 Estadístico de Durbin-Watson* 1.972853 


Suma de cuadrados de residuos 7 358.578 


*Estudiaremos este estadístico en el capítulo 12. 

Y Véase el capítulo 7. 
Como muestran estos resultados, el coeficiente de la pendiente (el coeficiente Beta) es muy 
significativo, pues su valor p es muy pequeño. La interpretación en este caso es que si la tasa 
excedente del mercado aumenta un punto porcentual, el rendimiento excedente del índice del 
sector de bienes de consumo aumenta alrededor de 1.15 puntos porcentuales. El coeficiente 
de la pendiente no es sólo estadísticamente significativo, sino que es significativamente mayor 
que 1 (¿puede verificar esto?). Si un coeficiente Beta es mayor que 1, se dice que ese título (en 
este caso, un portafolios de 104 acciones) es volátil; se mueve más que proporcionalmente con 
el índice general del mercado de valores. Sin embargo, este resultado no debe sorprender, por- 
que en este ejemplo se consideran acciones del sector de bienes de consumo cíclico, como los 
bienes duraderos de uso doméstico, automóviles, textiles y equipo deportivo. 

Si ajustamos el modelo (6.1.4), obtenemos los siguientes resultados: 

Variable dependiente: Y 
Método: mínimos cuadrados 
Muestra: 1980M01 1999M12 
Observaciones incluidas: 240 


Coeficiente Error estándar Estadístico t Probabilidad 

C -0.447481 0.362943 -1.232924 0.2188 

X 1.171128 0.075386 15.53500 0.0000 
R cuadrada 0.503480 Media de la variable dependiente 0.499826 
R cuadrada ajustada 0.501394 Desviación estándar de la variable 7.849594 

dependiente 

Error estándar de regresión 5.542759 Estadístico de Durbin-Watson 1.984746 
Suma de cuadrados de residuos 7 311.877 Probabilidad (estadístico F) 0.000000 
Estadístico F 241.3363 


En estos resultados observamos que el intercepto no es estadísticamente diferente de cero, 
aunque el coeficiente de la pendiente (el coeficiente Beta) es muy significativo estadísticamente. 
Esto indica que el modelo de regresión a través del origen se ajusta bien a los datos. Además, 
en términos estadísticos, no hay diferencia entre los valores del coeficiente de la pendiente en 
los dos modelos. Observe que el error estándar del coeficiente de la pendiente en el modelo de 
regresión a través del origen es un poco menor que el del modelo con el intercepto presente, lo 
cual apoya el argumento de Theil de la nota 4. Aun en este caso, el coeficiente de la pendiente 
es estadísticamente mayor que 1, lo que una vez más confirma que los rendimientos de las ac- 
ciones del sector de bienes de consumo cíclico son volátiles. 

A propósito, observe que el valor de r? para el modelo de regresión a través del origen debe 
tomarse con ciertas reservas, pues la fórmula tradicional de r? no es aplicable en tales modelos. 
Sin embargo, EViews presenta de manera habitual el valor estándar de r?, incluso para estos 
modelos. 
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6.2 Escalas y unidades de medición 


TABLA 6.2 

Inversión nacional pri- 
vada bruta y PIB, Esta- 
dos Unidos, 1990-2005 
(miles de millones de 
dólares [de 2000] ajus- 
tados por la inflación, 
salvo donde se indica lo 
contrario; datos trimes- 
trales con tasas anuales 
ajustadas por estaciona- 
lidad) 


Fuente: Economic Report of the 


President, 2007, tabla B-2, p. 328. 


Para entender las ideas de esta sección, considere la información de la tabla 6.2, referente a la 
inversión doméstica privada bruta (IDPB) de Estados Unidos y al producto interno bruto (PIB) 
en miles de millones y en millones de dólares de 2000 ajustados por la inflación. 

Suponga que en la regresión de la IDPB sobre el PIB, un investigador utiliza información 
medida en miles de millones de dólares y otro expresa estos datos en millones de dólares. ¿Serán 
iguales los resultados de la regresión en ambos casos? De no ser así, ¿qué resultados deben usarse? 
En resumen, ¿las unidades con que se mide la variable regresada y la(s) variable(s) regresora(s) 
influyen de algún modo en los resultados de la regresión? De ser así, ¿qué curso razonable debe 
seguirse en la selección de las unidades de medición para el análisis de regresión? Para responder 
estas preguntas, procedamos sistemáticamente. Sea 


Y; =B1+B2X, +05 (6.2.1) 

donde Y = IDPB y X= PIB. Defina 
Y? =wm Y; (6.2.2) 
X= wX; (6.2.3) 


donde w; y w, son constantes, denominadas factores de escala; w; puede ser igual o diferente 
a w2. 

De (6.2.2) y (6.2.3) es claro que Y“ y X* son Y; y X; reescaladas. Por tanto, si Y; y X; se miden 
en miles de millones de dólares y se desea expresarlas en millones de dólares, se tendrá Y* = 
1 000 Y; y X? = 1 000 X;; aquí w, = w2 = 1 000. 

Ahora considere la regresión con las variables Y* y X¥: 


Yf = Êt + ÊX + i (6.2.4) 


donde Y? = wı Y, Xf = wX; y ù = wıû;. (¿Por qué?) 


Año IDPBmm IDPBm PIBmm PIBm 

1990 886.6 886 600.0 7112.5 7 112 500.0 
1991 829.1 829 100.0 7 100.5 7 100 500.0 
1992 878.3 878 300.0 7 336.6 7 336 600.0 
1993 953.5 953 500.0 7 532.7 7 532 700.0 
1994 1 042.3 1 042 300.0 7 835.5 7 835 500.0 
1995 1 109.6 1 109 600.0 8 031.7 8 031 700.0 
1996 1 209.2 1 209 200.0 8 328.9 8 328 900.0 
1997 1 320.6 1 320 600.0 8 703.5 8 703 500.0 
1998 1 455.0 1 455 000.0 9 066.9 9 066 900.0 
1999 1 576.3 1 576 300.0 9 470.3 9 470 300.0 
2000 1 679.0 1 679 000.0 9 817.0 9 817 000.0 
2001 1 629.4 1 629 400.0 9 890.7 9 890 700.0 
2002 1 544.6 1 544 600.0 10 048.8 10 048 800.0 
2003 1 596.9 1 596 900.0 10 301.0 10 301 000.0 
2004 1713.9 1713 900.0 10 703.5 10 703 500.0 
2005 1 842.0 1 842 000.0 11 048.6 11 048 600.0 


Nota: IDPB nm = inversión doméstica privada bruta (miles de millones de dólares de 2000). 
IDPBm = 
PIBmm = producto interno bruto (miles de millones de dólares de 2000). 
PIB = producto interno bruto (millones de dólares de 2000). 


inversiones nacionales privadas brutas (millones de dólares de 2000). 


DURAN 
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Deseamos encontrar las relaciones entre los siguientes pares: 


By Êi 

. Pay P? i 

: var (1) y var(Br) 
. var (2) y var(6ž) 


2 2 


Bi = Y — f,X (6.2.5) 
$2 = Ss (6.2.6) 
5 xX 

var (ĝi) = > -0° (6.2.7) 
A o? 

var (B2) = SZ (6.2.8) 
a 
di (6.2.9) 


ĝt = 7* — BOP (6.2.10) 
x x*y* 
j a (6.2.11) 
var = O dee 
l n yar 
e y 
var (83) = Ni? (6.2.13) 
AZ 
¿a 2% (6.2.14) 
(n — 2) 


Con estos resultados es fácil establecer relaciones entre estos dos conjuntos de parámetros esti- 


mados. Todo lo que se debe hacer es recordar las siguientes relaciones: Y = w1 Y; (o y? = w1 y;); 


X* = wX; (0 xř = wxi); ús = wjú¡; Y* = w,Y; y X* = wX. Con estas definiciones, el lec- 
tor puede verificar fácilmente que 


Bs = (=) (6.2.15) 
W2 

Bi = wi ĝi (6.2.16) 

6 = wô? (6.2.17) 


var (Br) = w? var (Âi) (6.2.18) 
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2 
var (š) = (=) var (ĝ2) (6.2.19) 


o A) 
Pxy T Py 


> (6.2.20) 


De los resultados anteriores debe quedar claro que, con los resultados de regresión basados 
en una escala de medición, se pueden obtener los resultados basados en otra, una vez que se co- 
nozcan los factores de escala, w. En la práctica, sin embargo, se deben escoger las unidades de 
medición en forma razonable; no tiene objeto manejar todos esos ceros al expresar números en 
millones o en miles de millones de dólares. 

De los resultados de (6.2.15) hasta (6.2.20) se derivan fácilmente algunos casos especiales. 
Por ejemplo, si w, = w3, es decir, si son idénticos los factores de escala, el coeficiente de la pen- 
diente y su error estándar permanecen inalterados en el cambio de escala de (Y, X;) a (Y, X7), 
lo cual intuitivamente debería ser claro. Sin embargo, el intercepto y su error estándar están 
multiplicados por w;. Si la escala X no se cambia (es decir, w2 = 1), pero la escala Y se cambia 
por el factor w;, el coeficiente de la pendiente, al igual que el intercepto y sus errores estándar 
respectivos, se multiplican por el mismo factor w;. Por último, si la escala Y permanece inalterada 
(es decir, wı = 1), pero la escala X se cambia por el factor w2, el coeficiente de la pendiente y 
su error estándar se multiplican por el factor (1/w,), pero el coeficiente del intercepto y su error 
estándar permanecen inalterados. 

Sin embargo, debe observarse que la transformación de la escala (Y, X) a la escala (Y*, X*) no 
afecta las propiedades de los estimadores de MCO analizadas en los capítulos anteriores. 


EJEMPLO 6.2 
Relación entre la 
IDPB y el PIB, 
Estados Unidos, 
1990-2005 


Para demostrar los resultados teóricos anteriores, consideremos de nuevo los datos presentados 
en la tabla 6.2 y examinemos los siguientes resultados (las cifras entre paréntesis son los errores 
estándar estimados). 

Si las escalas de la IDPB y del PIB están en miles de millones de dólares: 


ÍDPB; = -926.090 + 0.2535 PIB; 
ee = (116.358) (0.0129) r?= 0.9648 (6.2.21) 


Si las escalas de la IDPB y del PIB están en millones de dólares: 


ÍDPB; = —926 090 + 0.2535 PIB; 
ee= (116.358) (0.0129) r?= 0.9648 (6.2.22) 


Observe que el intercepto, lo mismo que su error estándar, es 1 000 veces los valores correspon- 
dientes de la regresión (6.2.21) (observe que wı = 1 000 al pasar de miles de millones a millones 
de dólares), pero el coeficiente de la pendiente, al igual que su error estándar, permanecen sin 
cambio, como lo afirma la teoría. 

La IDPB en miles de millones de dólares y el PIB en millones de dólares: 


ÍDPB; = -926.090 + 0.0002535 PIB, 
ee = (116.358) (0.0000129)  r?= 0.9648 (6.2.23) 


Como se esperaba, el coeficiente de la pendiente, al igual que su error estándar, es (1/1 000) 
de su valor en (6.2.21), pues sólo se modificó la escala de X, es decir, del PIB. 
La IDPB en millones de dólares y el PIB en miles de millones de dólares: 


[DPB; = -926 090 + 253.524 PIB; 
ee= (116 358.7) (12.9465) r? = 0.9648 (6.2.24) 
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De nuevo, observe que tanto el intercepto como el coeficiente de la pendiente y sus errores es- 
tándar respectivos son 1 000 veces sus valores en (6.2.21), lo cual concuerda con los resultados 
teóricos. 

Note que, en todas las regresiones presentadas antes, el valor de r? permanece constante, lo 
cual no sorprende debido a que el valor r? es invariable respecto de los cambios en las unidades 
de medición, pues es un número puro o adimensional. 


6.3 Regresión 


Advertencia sobre la interpretación 


Como el coeficiente de la pendiente, £2, es tan sólo la tasa de cambio, ésta se mide en las unida- 
des de la razón 


Unidades de la variable dependiente 


Unidades de la variable explicativa 


Así, en la regresión (6.2.21), la interpretación del coeficiente de la pendiente 0.2535 es que 
si el PIB cambia en una unidad, de 1 000 millones de dólares, la IDPB cambia en promedio en 
0.2535 miles de millones de dólares. En la regresión (6.2.23), una unidad de cambio en el PIB, 
que es 1 millón de dólares, induce en promedio a un cambio de 0.0002535 miles de millones de 
dólares en la IDPB. Los dos resultados son por supuesto idénticos en sus efectos del PIB sobre la 
IDPB, simplemente están expresados en diferentes unidades de medición. 


sobre variables estandarizadas 


En la sección anterior vimos que las unidades con que se expresan la variable independiente 
(regresora) y la dependiente (regresada) influyen en la interpretación de los coeficientes de re- 
gresión. Esto se evita si ambas variables (regresora y regresada) se expresan como variables 
estandarizadas. Se dice que una variable es estandarizada si se resta el valor de la media de esta 
variable de sus valores individuales y se divide esa diferencia entre la desviación estándar de 
la variable. 

Así, en la regresión de Y y X, si las redefinimos como: 


Y? = 
Sy 
XX 
X= 
Sx 


(6.3.1) 


(6.3.2) 


donde Y = media muestral de Y, Sy = desviación estándar muestral de Y, Y = media muestral 
de X y Sy = desviación estándar muestral de X; las variables Y* y X* se llaman variables es- 
tandarizadas. 

Una propiedad interesante de una variable estandarizada es que el valor de su media siempre 
es cero y que su desviación estándar siempre es 1. (Para comprobar lo anterior, véase el apéndice 
6A, sección 6A.2.) 

Como resultado, no importa en qué unidades se expresen ambas variables (la regresada y la 
regresora). En consecuencia, en lugar de llevar a cabo la regresión estándar (bivariada): 


Y; = Pi + P2X¡ + ui (6.3.3) 

podemos realizar la regresión sobre las variables estandarizadas de la siguiente manera: 
Y? = B + X +u (6.3.4) 
= X; +u (6.3.5) 
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pues resulta sencillo mostrar que, en la regresión que involucra a la regresada estandarizada y a 
la(s) regresora(s) estandarizada(s), el término del intercepto siempre es cero. Los coeficientes 
de regresión de las variables estandarizadas, denotados por fj y $3, se conocen en la bibliografía 
como los coeficientes beta.” Por cierto, observe que (6.3.5) es una regresión a través del origen. 

¿Cómo se interpretan los coeficientes beta? La interpretación es que si la regresora (estandarl- 
zada) se incrementa una desviación estándar, en promedio, la regresada (estandarizada) aumenta 
P3 unidades de desviación estándar. Por tanto, a diferencia del modelo tradicional (6.3.3), se mide 
el efecto no en términos de las unidades originales en las expresadas X y Y, sino en unidades 
de desviación estándar. 

Para mostrar la diferencia entre (6.3.3) y (6.3.5) regresaremos al ejemplo de la IDPB y el PIB 
de la sección anterior. Los resultados de (6.2.21), ya examinados, se reproducen a continuación: 


IDPB, = -926.090 + 0.2535 PIB, 


(6.3.6) 
ee= (116.358) (0.0129)  r?=0.9648 


donde la IDPB y el PIB se miden en miles de millones de dólares. 
Los resultados que corresponden a (6.3.5) son los siguientes, en donde las variables con aste- 
risco son variables estandarizadas: 
IDPB, = 0.9822 PIB? 
ee = (0.0485) 


(6.3.7) 


Ya sabemos interpretar (6.3.6): si el PIB se incrementa un dólar, la IDPB aumenta, en prome- 
dio, 30 centavos. ¿Y qué pasa con (6.3.7)? Aquí se interpreta como sigue: si el PIB (estandari- 
zado) se incrementara una desviación estándar, en promedio, la IDPB (estandarizada) aumentaría 
casi 0.94 desviaciones estándar. 

¿Cuál es la ventaja del modelo de regresión estandarizado respecto del modelo tradicional? 
Ésta se manifiesta mejor cuando hay más de una regresora, tema que analizaremos en el capítulo 
7. Al estandarizar todas las regresoras, quedan expresadas en una misma base y por consiguiente 
se pueden comparar de manera directa. Si el coeficiente de una regresora estandarizada es mayor 
que el de otra regresora estandarizada que aparece en ese modelo, esta última contribuye relati- 
vamente más a la explicación de la regresada de lo que contribuye la primera. En otras palabras, 
los coeficientes beta sirven como medida de la fuerza relativa de las diversas regresoras. Profun- 
dizaremos más en este tema en los dos siguientes capítulos. 

Antes de dar por terminado este asunto, vale la pena un par de observaciones. Primero, para la 
regresión estandarizada (6.3.7), no se dio el valor r? porque es una regresión a través del origen, 
para la cual no se aplica la r? usual, como se señaló en la sección 6.1. Segundo, existe una rela- 
ción interesante entre los coeficientes $ del modelo convencional y los coeficientes beta. Para el 
caso bivariado, la relación es como sigue: 


ĝ = ($) (6.3.8) 
Sy 
donde Sy = la desviación estándar muestral de la regresora X y S, = la desviación estándar 
muestral de la regresada. Por consiguiente, se pueden intercambiar los £ con los coeficientes beta 
si se conoce la desviación estándar (muestral) de la regresora y de la regresada. En el siguiente 
capítulo veremos que esta relación se cumple también para la regresión múltiple. Se deja como 
ejercicio para el lector verificar la ecuación (6.3.8) para este ejemplo ilustrativo. 


é Recuerde, de la ecuación (3.1.7), que el intercepto es igual al valor de la media de la variable dependiente 
menos la pendiente multiplicada por el valor de la media de la regresora. No obstante, para las variables 
estandarizadas, los valores de la media de la variable dependiente y de la regresora son cero. Por tanto, el 
valor del intercepto también es cero. 


7 No confunda estos coeficientes beta con los coeficientes beta de la teoría financiera. 
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6.4 Formas funcionales de los modelos de regresión 


Como mencionamos en el capítulo 2, este texto trata sobre todo con modelos lineales en los 
parámetros, que pueden ser o no lineales en las variables. En las secciones que siguen considera- 
remos algunos modelos de regresión muy comunes, que pueden ser no lineales en las variables 
pero sí lineales en los parámetros, o que pueden serlo mediante transformaciones apropiadas de 
las variables. En particular, analizaremos los siguientes modelos de regresión: 

1. El modelo log-lineal. 

2. Modelos semilogarítmicos. 

3. Modelos recíprocos. 

4. El modelo logarítmico recíproco. 


Ahora analizaremos las características especiales de cada modelo, los casos en los cuales su uso 
es apropiado y la forma de estimarlos. Cada modelo se ilustra con ejemplos apropiados. 


6.5 Cómo medir la elasticidad: modelo log-lineal 


Considere el siguiente modelo, conocido como modelo de regresión exponencial: 


Y, =p XP e" (6.5.1) 


que puede expresarse también como? 


In Y; = In 6; + b2 ln X; + ui (6.5.2) 


donde ln = logaritmo natural (es decir, logaritmo en base e y donde e = 2.718).? 
Si escribimos (6.5.2) como 


In Y; =g + Bn X; + ui (6.5.3) 


donde œ = In £1, este modelo es lineal en los parámetros œ y f2, lineal en los logaritmos de las 
variables Y y X, y se estima por regresión MCO. Debido a esta linealidad, tales modelos se deno- 
minan modelos log-log, doble-log o log-lineales. Véase el apéndice 6A.3, donde se explican las 
propiedades de los logaritmos. 

Si se cumplen los supuestos del modelo clásico de regresión lineal, los parámetros de (6.5.3) 
se estiman por el método MCO, considerando que 


Y = œ + PX + ui (6.5.4) 


donde Y* = In Y; y X* = In X;. Los estimadores de MCO obtenidos, & y B», serán los mejores 
estimadores lineales insesgados de « y 6», respectivamente. 


8 Observe estas propiedades de los logaritmos: 1) In(4B) = In A + In B, 2) In(4/B) = In A — In By 

3) In(A*) = k In A, suponiendo que A y B son positivos, y donde k es alguna constante. 

? En la práctica se pueden utilizar logaritmos comunes, es decir, logaritmos base 10. La relación entre el 
logaritmo natural y el logaritmo común es: Ine X = 2.3026 log10 X. Por convención, In significa logaritmo 
natural y log significa logaritmo base 10; por tanto, no hay necesidad de escribir los subíndices e y 10 
explícitamente. 
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FIGURA 6.3 
Modelo de elasticidad 
constante. 


Y In Y 


InY= In f$¡-fB,1n X; 


Cantidad demandada 
Log de la cantidad 
demandada 


In X 
Precio Log del precio 


a) b) 


Una característica atractiva del modelo log-log, que lo ha hecho muy popular en el trabajo 
empírico, es que el coeficiente de la pendiente $, mide la elasticidad de Y respecto de X, es decir, 
el cambio porcentual en Y ante un pequeño cambio porcentual en X.!'% Así, si Y representa la can- 
tidad demandada de un bien y X su precio unitario, 2 mide la elasticidad-precio de la demanda, 
parámetro de gran interés en economía. Si la relación entre la cantidad demandada y el precio es 
como se muestra en la figura 6.3a, la transformación doble-log de la figura 6.3b dará entonces la 
estimación de la elasticidad-precio (— £2). 

Pueden observarse dos características especiales del modelo log-lineal: el modelo supone que 
el coeficiente de la elasticidad entre Y y X, 62, permanece constante a través del tiempo (¿por 
qué?), de aquí su otro nombre, modelo de elasticidad constante.'! En otras palabras, como lo 
indica la figura 6.3b, el cambio en In Y por unidad de cambio en ln X (es decir, la elasticidad, 
f2) permanece igual sin importar en cuál In X se mida la elasticidad. Otro aspecto del modelo 
es que, a pesar de que å y $2 son estimadores insesgados de a y £2, B1 (el parámetro del modelo 
original) al estimarse como 81 = antilog (0) es, en sí, un estimador sesgado. En la mayor parte 
de los problemas prácticos, sin embargo, el término del intercepto es de importancia secundaria 
y no es necesario preocuparse por obtener este estimador insesgado.'? 


10 El coeficiente de elasticidad, en la notación del cálculo, se define como (dY/Y)/(dX/X) = [(dY/dX(X/Y)1. 
Los lectores familiarizados con el cálculo diferencial se darán cuenta fácilmente de que £2 es, en efecto, el 
coeficiente de elasticidad. 

Nota técnica: El lector con una buena formación en cálculo notará que d(In X)/dX = 1/X o d(In X) = 
dX/X, es decir, para cambios infinitesimalmente pequeños (observe el operador diferencial d), un cambio 
en In X es igual al cambio relativo o proporcional en X. En la práctica, sin embargo, si el cambio en X es pe- 
queño, esta relación se escribe como: cambio en In X = cambio relativo en X, donde = significa aproxima- 
damente igual. Así, para cambios pequeños, 


(In X¿— In X;-1) = (Xt — Xt-1)/Xt-1 = cambio relativo en X 


A propósito, el lector debe observar estos términos, a los que se hace referencia frecuentemente: 1) cam- 
bio absoluto, 2) cambio relativo o proporcional y 3) cambio porcentual o tasa de crecimiento 
porcentual. Así, (X: — X;_1) representa un cambio absoluto, (X: — Xt-1)/Xt-1 = (Xi/Xi-1 — 1) es un cambio 
relativo o proporcional, y [(X; — X:-1)/X+-1]100 es el cambio porcentual, o la tasa de crecimiento. Xt y X;_1 
son los valores actual y anterior de la variable X, respectivamente. 

11 Un modelo de elasticidad constante permitirá obtener un cambio constante en el ingreso total ante un 
cambio porcentual dado en precios sin importar el nivel absoluto del precio. Los lectores deben contrastar 
este resultado con las condiciones de elasticidad que implica una función de demanda lineal simple, Y; = fr 
+ PB2X¡ + ui. Sin embargo, una función lineal simple permite obtener un cambio constante en la cantidad 
generada por un cambio unitario en el precio. Confronte esto con lo que implica el modelo log-lineal para 
un cambio nominal en los precios. 


12 En relación con la naturaleza del sesgo y lo que puede hacerse al respecto, véase Arthur S. Goldberger, 
Topics in Regression Analysis, Macmillan, Nueva York, 1978, p. 120. 
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En el modelo de dos variables, la forma más simple de decidir si el modelo log-lineal se ajusta 
a los datos es graficar el diagrama de dispersión de 1n Y; frente a In X; y ver si las observaciones 
caen más o menos sobre una línea recta, como en la figura 6.35. 

Advertencia: El lector debe tener presente la distinción entre un cambio porcentual y uno en 
puntos porcentuales. Por ejemplo, la tasa de desempleo a menudo se expresa en forma de porcen- 
taje; por decir, una tasa de desempleo de 6%. Si esta tasa aumenta a 8%, se dice que el cambio en 
puntos porcentuales de la tasa de desempleo es 2, mientras que el cambio porcentual de la tasa 
de desempleo es (8 — 6)/6, o alrededor de 33%. Por consiguiente, hay que tener cuidado cuando 
se trabaja con cambios porcentuales y cambios en puntos porcentuales, pues son dos conceptos 
muy diferentes. 


EJEMPLO 6.3 

Gasto en bienes du- 
raderos en relación 
con el gasto de con- 
sumo personal total 


TABLA 6.3 

Gasto personal total 

y categorías (miles de 
millones de dólares de 
2000 ajustados por la 
inflación; datos trimes- 
trales con tasas anuales 
ajustadas por estacio- 
nalidad) 


Fuentes: Departamento de 
Comercio, Oficina de Análisis 
Económico, Economic Report 
of the President, 2007, tabla 
B-17, p. 347. 


La tabla 6.3 presenta datos sobre el gasto de consumo personal total (GCPERT), el gasto en 
bienes duraderos (GASBD), el gasto en bienes perecederos (GASBPER) y el gasto en servicios 
(GASERV), todos medidos en miles de millones de dólares de 2000.13 

Suponga que deseamos calcular la elasticidad del gasto en bienes duraderos respecto del 
gasto de consumo personal total. Al graficar el logaritmo del gasto en bienes duraderos contra el 
logaritmo del gasto de consumo personal total, observará que la relación entre las dos variables 
es lineal. Por tanto, el modelo del doble logaritmo puede resultar adecuado. Los resultados de 
la regresión son: 


ÍnGASBD;= 7.5417 + 1.6266 In GCPERT; 
ee= (0.7161) (0.0800) (6.5.5) 
t=(-10.5309)* (20.3152)*  r2=0.9695 

donde * indica que el valor p es en extremo pequeño. 

Año o trimestre GASERV GASBD GASBPER GCPERT 
2003-I 4 143.3 971.4 2 072.5 7 184.9 
2003-11 4 161.3 1 009.8 2 084.2 7 249.3 
2003-11! 4 190.7 1 049.6 2 123.0 7 352.9 
2003-1V 4 220.2 1 051.4 2 132.5 7 394.3 
2004-I 4 268.2 1 067.0 21553 7 479.8 
2004-II 4 308.4 1 071.4 2 164.3 7 534.4 
2004-III 4 341.5 1 093.9 2 184.0 7 607.1 
2004-IV 4 377.4 1110.3 2 213.1 7 687.1 
2005-I 4 395.3 1116.8 2 241.5 7 739.4 
2005-II 4 420.0 1 150.8 2 268.4 7 819.8 
2005-lIII 4 454.5 1175.9 2 287.6 7 895.3 
2005-IV 4 476.7 1 137.9 2 309.6 7910.2 
2006-1 4 494.5 1190.5 2 342.8 8 003.8 
2006-11 4 535.4 1 190.3 2 351.1 8 055.0 
2006-11 4 566.6 1 208.8 2 360.1 8 111.2 

Nota: Véase la tabla B-2, que contiene datos sobre el gasto de consumo personal total correspondientes a 1959-1989, 

GASERV = gasto en servicios (miles de millones de dólares de 2000). 
GASBD = gasto en bienes duraderos (miles de millones de dólares de 2000). 
GASBPER = gasto en bienes perecederos (miles de millones de dólares de 2000). 
GCPERT = gasto de consumo personal total (miles de millones de dólares de 2000). 
(continúa) 


13 Los bienes duraderos son vehículos automotores y refacciones, muebles y equipo doméstico; los bienes 
perecederos son comida, ropa, gasolina, aceite, combustible de petróleo y carbón mineral; y los servicios 
son vivienda, electricidad y gas, transporte y atención médica. 
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EJEMPLO 6.3 Como muestran estos resultados, la elasticidad de GASBD respecto de GCPERT es de casi 

(continuación) 1.63, lo que indica que si el gasto personal total aumenta 1%, en promedio, el gasto en bienes 
duraderos se incrementará casi 1.63%. En consecuencia, el gasto en bienes duraderos es muy 
sensible a los cambios en el gasto de consumo personal. Por esta razón, los productores de bie- 
nes duraderos siguen muy de cerca los cambios en el ingreso personal y el gasto de consumo 
personal. En el ejercicio 6.18 se pide al lector que realice un ejercicio similar para el gasto en 
bienes perecederos. 


6.6 Modelos semilogarítmicos: log-lin y lin-log 


Cómo medir la tasa de crecimiento: 

modelo log-lin 

A los economistas, comerciantes y gobiernos con frecuencia les interesa encontrar la tasa de 
crecimiento de ciertas variables económicas, como población, PNB, oferta monetaria, empleo, 
productividad y déficit comercial. 

Suponga que deseamos conocer la tasa de crecimiento del gasto de consumo personal en ser- 
vicios para los datos de la tabla 6.3. Sea Y, el gasto real en servicios en el tiempo t y Yọ el valor 
inicial del gasto en servicios (es decir, el valor al final del cuarto trimestre de 2002). Recordará la 
muy conocida fórmula del interés compuesto, vista en los cursos básicos de economía. 


Y,= (1 +r) (6.6.1) 


donde r es la tasa de crecimiento compuesta de Y (es decir, a través del tiempo). Con el logaritmo 
natural de (6.6.1), escribimos 


In Y,= In Y, + tln (1 +») (6.6.2) 
Ahora, con 
B1 = In Yo (6.6.3) 
palas (6.6.4) 
escribimos (6.6.2) así 
In Y, ALE (6.6.5) 
Al agregar el término de perturbación a (6.6.5), obtenemos!4 
In Y, = $1 + bot + u; (6.6.6) 


Este modelo es como cualquier otro modelo de regresión lineal en el sentido de que los pará- 
metros $, y f2 son lineales. La única diferencia es que la variable dependiente o regresada es el 
logaritmo de Y y la regresora o variable explicativa es el “tiempo”, que adquiere valores de 1, 2, 
3, etcétera. 

Los modelos como (6.6.6) se denominan modelos semilog porque sólo una variable (en este 
caso, la regresada) aparece en forma logarítmica. Para fines descriptivos, un modelo en el cual la 
variable regresada es logarítmica se denomina modelo log-lin. Más adelante consideraremos un 
modelo en el cual la variable regresada es lineal pero la(s) regresora(s) es (son) logarítmica(s): 
un modelo lin-log. 


14 Agregamos el término de error porque la fórmula de interés compuesto no se cumple con exactitud. La 
razón de agregar el error después de la transformación logarítmica se expone en la sección 6.8. 
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Antes de presentar los resultados de la regresión, examinemos las propiedades del modelo 
(6.6.5). En este modelo, el coeficiente de la pendiente mide el cambio proporcional constante o 
relativo en Y para un cambio absoluto dado en el valor de la regresora (en este caso, la variable 
f), es decir,!* 


cambio relativo en regresada (6.6.7) 


2= - 
cambio absoluto en la regresora 


Si multiplicamos el cambio relativo en Y por 100, (6.6.7) dará entonces el cambio porcentual, 
o la tasa de crecimiento, en Y ocasionada por un cambio absoluto en X, la variable regresora. 
Es decir, 100 por £2 da como resultado la tasa de crecimiento en Y; 100 por £2 se conoce en la 
bibliografía como la semielasticidad de Y respecto de X. (Pregunta: Para conocer la elasticidad, 
¿qué debemos hacer?)!* 


EJEMPLO 6.4 
Tasa de crecimiento 
del gasto en 
servicios 


FIGURA 6.4 


Para ilustrar el modelo de crecimiento (6.6.6), considere los datos sobre el gasto en servicios 
proporcionados en la tabla 6.3. Los resultados de la regresión a través del tiempo (t) son los 
siguientes: 


În GES; = 8.3226 + 0.00705t 
ee= (0.0016) (0.00018) r?= 0.9919 (6.6.8) 


t=(5201.625)*  (39.1667)* 


Nota: GES significa gasto en servicios, y el asterisco (*) denota que el valor p es en extremo 
pequeño. 

La interpretación de la ecuación (6.6.8) es que durante los periodos trimestrales de 2003-1 a 
2006-11l, el gasto en servicios se incrementó con una tasa (trimestral) de 0.705%. Aproximada- 
mente, esto equivale a un crecimiento anual de 2.82%. Como 8.3226 = log de GES al comienzo 
del periodo de análisis, si se toma su antilogaritmo obtenemos 4 115.96 (miles de millones de 
dólares) como el valor inicial de GES (es decir, el valor a principios de 2003). En la figura 6.4 se 
ilustra la línea de regresión obtenida con la ecuación (6.6.8). 
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15 Mediante cálculo diferencial se demuestra que £2 = d(In Y)/dX = (1/Y)(dY/dX) = (dY/Y)/dX, que no es 
otra cosa que la ecuación (6.6.7). Para cambios pequeños en Y y en X, esta relación puede aproximarse me- 
diante 


(Yt — Ye-1)/ Yi 
(Xt = Xt-1) 


Nota: Aquí, X = t. 
16 Véanse varias fórmulas de crecimiento en el apéndice 6A.4. 
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Tasas de crecimiento instantánea y compuesta 

El coeficiente de la variable de tendencia del modelo de crecimiento (6.6.6), 62, da la tasa de 
crecimiento instantánea (en un momento dado) y no la compuesta (durante un periodo). Pero 
esta última se calcula fácilmente a partir de (6.6.4). Para ello, se obtiene el antilogaritmo de la £2 
estimada, se resta 1 y se multiplica la diferencia por 100. Por tanto, para el ejemplo ilustrativo, 
el coeficiente estimado de la pendiente es 0.00743. Así, [antilog(0.00746) — 1] = 0.00746 o 
0.746%. En consecuencia, en el ejemplo ilustrativo, la tasa compuesta de crecimiento de gastos 
en servicios fue de casi 0.746% por trimestre, lo cual es un poco mayor que la tasa de crecimiento 
instantánea de 0.743%. Lo anterior se debe, por supuesto, al efecto de la composición. 


Modelo de tendencia lineal 


En lugar de estimar el modelo (6.6.6), los investigadores algunas veces estiman el siguiente 
modelo: 


Y, = Pı + Bot + u: (6.6.9) 


Es decir, en lugar de regresar el log de Y sobre el tiempo, regresan Y sobre el tiempo, donde Y es 
la variable regresada en consideración. Un modelo de este tipo se denomina modelo de tenden- 
cia lineal, y la variable tiempo t se conoce como variable de tendencia. Si el coeficiente de la 
pendiente en (6.6.9) es positivo, existe una tendencia creciente en Y, mientras que si es negativa, 
existe una tendencia decreciente en Y. 

Para los datos sobre el gasto en servicios que analizamos antes, los resultados de ajustar el 
modelo de tendencia lineal (6.6.9) son los siguientes: 


GES, = 4 111.545 + 30.674t 
t= (655.5628) (44.4671) r? = 0.9935 


(6.6.10) 


En contraste con la ecuación (6.6.8), la interpretación de la ecuación (6.6.10) es la siguiente: 
durante los periodos trimestrales de 2003-I a 2006-III, en promedio, el gasto en servicios se in- 
crementó con una tasa absoluta (nota: no relativa) de alrededor de 30 000 millones de dólares por 
trimestre. Es decir, hubo una tendencia creciente en el gasto en servicios. 

La elección entre el modelo de crecimiento (6.6.8) y el modelo de tendencia lineal (6.6.10) 
dependerá de que el interés recaiga en el cambio relativo o absoluto del gasto en servicios, aun- 
que, para propósitos de comparación, es el cambio relativo el que tiene mayor importancia. A 
propósito, observe que no se pueden comparar los valores de r? de los modelos (6.6.8) y (6.6.10), 
pues las regresadas o variables dependientes son diferentes en los dos modelos. Veremos en el 
capítulo 7 la forma de comparar las r? de los modelos como el (6.6.8) y el (6.6.10). 


El modelo lin-log 


A diferencia del modelo de crecimiento recién estudiado, en el cual nos interesaba encontrar el 
crecimiento porcentual en Y ante un cambio unitario absoluto en X, ahora deseamos encontrar el 
cambio absoluto en Y debido a un cambio porcentual en X. Un modelo que cumple este propósito 
se escribe como 


Y; = pı + BMX; + u; (6.6.11) 


Con fines descriptivos se le llama modelo lin-log. 
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Interpretemos el coeficiente de la pendiente b2 Como de costumbre, 


B cambio en Y 
2: n= 


cambio en ln Y 
cambio en Y 


cambio relativo en X 


El segundo paso se deriva de que un cambio en el log de un número es un cambio relativo. 
Simbólicamente, tenemos 
AY 


b2 = xx 


(6.6.12) 


donde, como es usual, A denota un cambio pequeño. La ecuación (6.6.12) se escribe, en forma 
equivalente, así: 


AY = B(AX/X) (6.6.13) 


Esta ecuación plantea que el cambio absoluto en Y (= AY) es igual a la pendiente multiplicada 
por el cambio relativo en X. Si este último se multiplica por 100, entonces (6.6.13) da el cambio 
absoluto en Y ocasionado por un cambio porcentual en X. Así, si AX/X cambia en 0.01 unidades 
(o 1%), el cambio absoluto en Y es 0.01(8>). Por tanto, si en una aplicación se encuentra que 62 = 
500, el cambio absoluto en Y es (0.01)1(500) = 5.0. Por consiguiente, cuando se utiliza MCO para 
estimar regresiones como en (6.6.11), se debe multiplicar el valor del coeficiente estimado de la 
pendiente por 0.01, o, lo que es lo mismo, dividirlo entre 100. Si no tiene presente lo anterior, la 
interpretación en una aplicación será muy equivocada. 

La pregunta práctica es: ¿cuándo resulta útil un modelo lin-log como el (6.6.11)? Se ha encon- 
trado una interesante aplicación en los así llamados modelos de gasto Engel [en honor del es- 
tadístico alemán Ernst Engel (1821-1896)] (véase el ejercicio 6.10). Engel postuló que “el gasto 
total que se dedica a los alimentos tiende a incrementarse en progresión aritmética, mientras que 


el gasto total aumenta en progresión geométrica”.!* 


EJEMPLO 6.5 


Como ejemplo del modelo lin-log, revise el ejemplo sobre gasto alimentario en India, ejemplo 
3.2. Ahí ajustamos un modelo lineal en las variables, como primera aproximación. Pero si grafi- 
camos los datos, obtenemos el gráfico de la figura 6.5. Como esta figura indica, el gasto alimen- 
tario se incrementa más despacio, conforme el gasto total aumenta, lo cual quizá sustente la ley 
de Engel. Los resultados de ajustar el modelo lin-log a los datos son los siguientes: 

GasAli;=—1 283.912 + 257.2700 In GasTot; 


t=  (-4.3848)* (5.6625)* r?=0.3769 (6.6.14) 


Nota: (*) denota un valor p en extremo pequeño. 


(continúa) 


17 Una vez más, mediante cálculo diferencial, tenemos 
dY p 1 
dx ~ "NX 
Por consiguiente, 


Pa = Sy = (6.6.12) 


18 Véase Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics and Data Analysis for Developing 
Countries, Routledge, Londres, 1998, p. 158. Esta cita se atribuye a H. Working, “Statistical Laws of Family 
Expenditure”, Journal of the American Statistical Association, vol. 38, 1943, pp. 43-56. 
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EJEMPLO 6.5 


(continuación) 
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Interpretado de la forma antes descrita, el coeficiente de la pendiente, que vale casi 257, 
significa que un incremento en el gasto total en alimentos de 1%, en promedio, propicia un 
incremento de casi 2.57 rupias en el gasto en alimento de las 55 familias incluidas en la muestra. 
(Nota: El coeficiente estimado de la pendiente se dividió entre 100.) 

Antes de seguir, observe que si desea calcular el coeficiente de elasticidad para los modelos 
lin-log o log-lin, puede hacerlo a partir de la definición del coeficiente de elasticidad dada antes, 
a saber: 


a aY X 
Elasticidad = TY 


En la práctica, al conocer la forma funcional de un modelo, se pueden calcular las elasticidades 


con la definición anterior. (La tabla 6.6, que se presenta más adelante, resume los coeficientes 
de elasticidad para los diversos modelos.) 


Debe señalarse que, algunas veces, la transformación logarítmica se emplea para reducir la 


heteroscedasticidad, así como la asimetría. (Véase el capítulo 11.) Una característica común de 


muchas variables económicas es que tienen asimetría positiva (por ejemplo, distribución del ta- 
maño de las empresas, o distribución del ingreso o riqueza) y son heteroscedásticas. Una trans- 
formación logarítmica de dichas variables reduce tanto la asimetría como la heteroscedasticidad. 
Por eso, los economistas laborales acostumbran usar logaritmos de los salarios en la regresión de 
éstos sobre, por poner un ejemplo, el nivel de escolaridad, medido éste por los años de educación 
recibida. 


6.7 Modelos recíprocos 


Los modelos del siguiente tipo se conocen como modelos recíprocos. 


Y, = pı + f2 (2) +. (6.7.1) 
Xi 
A pesar de que este modelo es no lineal en la variable X porque entra inversamente o en 
forma recíproca, el modelo es lineal en $; y £2, y, por consiguiente, es un modelo de regresión 
lineal. !? 
Este modelo tiene las siguientes características: a medida que X aumenta indefinidamente, 
el término f2 (1/X) se acerca a cero (nota: Bz es una constante) y Y se aproxima al valor límite 


19 Si X¥ =(1/X;), entonces la ecuación (6.7.1) es lineal en los parámetros al igual que en las variables Y; y X*. 


FIGURA 6.6 


El modelo recíproco: 


Y=P,+ p(7) 
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B,>0 B,<0 


B,<0 Bi 


a) b) c) 


o asintótico ßı. Por consiguiente, modelos como (6.7.1) contienen un valor asintótico o límite 
que tomará la variable dependiente cuando el valor de la variable X aumente indefinidamente.? 
Algunas formas probables de la curva correspondiente a (6.7.1) se muestran en la figura 6.6. 


EJEMPLO 6.6 


FIGURA 6.7 
Relación entre la mor- 
talidad infantil y el PIB 


per cápita, en 66 países. 


Como un ejemplo de la figura 6.6a, considere los datos de la tabla 6.4. Son datos transversales 
de 64 países sobre mortalidad infantil y otras variables. Por el momento, hay que concentrarse 
en las variables de mortalidad infantil (MI) y PIB per cápita (PIBPC), que se grafican en la figura 
6.7. 

Como se ve, esta figura se parece a la 6.6a: conforme se incrementa el PIB per cápita, se 
esperaría que la mortalidad infantil disminuyera, debido a que las personas pueden gastar más 
en el cuidado de la salud, si se supone que los demás factores permanecen constantes. Pero 
la relación no da como resultado una línea recta: conforme se incrementa el PIB per cápita, al 
principio existe una disminución drástica de la MI, pero disminuye en la medida en que el PIB 
per cápita sigue en aumento. 
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(continúa) 


20 La pendiente de la ecuación (6.7.1) es: dY/dX = —B2(1/X?), e implica que si $2 es positivo, la pendiente 
siempre es negativa, y si $2 es negativa, la pendiente siempre es positiva. Véanse las figuras 6.6a y 6.6c, res- 
pectivamente. 
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EJEMPLO 6.6 


(continuación) 


TABLA 6.4 Fecundidad y otros datos de 64 países 


Observación MI TAF PIBPC TFT Observación MI TAF PIBPC TFT 
1 128 37 1870 6.66 33 142 50 8640 7.17 
2 204 22 130 6.15 34 104 62 350 6.60 
3 202 16 310 7.00 35 287 31 230 7.00 
4 197 65 570 6.25 36 41 66 1620 3.91 
5 96 76 2050 3.81 37 312 11 190 6.70 
6 209 26 200 6.44 38 77 88 2090 4.20 
7 170 45 670 6.19 39 142 22 900 5.43 
8 240 29 300 5.89 40 262 22 230 6.50 
9 241 11 120 5.89 41 215 12 140 6.25 

10 55 Dd) 290 2.36 42 246 9 330 7.10 
11 75 87 1180 3.93 43 191 31 1010 7.10 
12 129 155 900 5.99 44 182 19 300 7.00 
13 24 93 1730 3.50 45 37 88 1730 3.46 
14 165 31 1150 7.41 46 103 35 780 5.66 
15 94 77 1160 4.21 47 67 85 1300 4.82 
16 96 80 1270 5.00 48 143 78 930 5.00 
17 148 30 580 5.27 49 83 85 690 4.74 
18 98 69 660 5.21 50 223 33 200 8.49 
19 161 43 420 6.50 51 240 19 450 6.50 
20 118 47 1080 6.12 52 312 21 280 6.50 
21 269 17 290 6.19 53 12 79 4430 1.69 
22 189 35 270 5.05 54 52 83 270 3.25 
23 126 58 560 6.16 55 79 43 1340 7.17 
24 12 81 4240 1.80 56 61 88 670 3.52 
25 167 29 240 4.75 57 168 28 410 6.09 
26 135 65 430 4.10 58 28 95 4370 2.86 
27 107 87 3020 6.66 59 121 41 1310 4.88 
28 72 63 1420 7.28 60 115 62 1470 3.89 
29 128 49 420 8.12 61 186 45 300 6.90 
30 27 63 19830 5.23 62 47 85 3630 4.10 
31 152 84 420 5.79 63 178 45 220 6.09 
32 224 23 530 6.50 64 142 67 560 7.20 
Notas: MI = mortalidad infantil, el número de defunciones de niños menores de 5 años en un año por cada 1 000 nacidos vivos. 


TAF = tasa de alfabetismo femenina (porcentaje). 


PIBPC = PIB per cápita en 1980. 


TFT = tasa de fecundidad total, 1980-1985, cantidad promedio de hijos por mujer, con tasas de fecundidad para edades es- 
pecíficas en un año determinado. 
Fuente: Chandan Mukherjee, Howard White y Marc Whyte, Econometrics and Data Analysis for Developing Countries, Routledge, 


Londres, 1998, p. 456. 


Si tratamos de ajustar el modelo recíproco (6.7.1), obtenemos los siguientes resultados: 


MI; = 81.79436 + 27 237.1 ( 


ee = (10.8321) 
t= (7.5511) 


(7.2535) 


f 
PIBPC; 
(3 759.999) 


r? = 0.4590 


(6.7.2) 


Conforme el PIB per cápita se incrementa indefinidamente, la mortalidad infantil se acerca a su 
valor asintótico de casi 82 muertes por millar. Como se explicó en la nota 20, el valor positivo 
del coeficiente de (1/PIBPC} implica que la tasa de cambio de la MI respecto del PIBPC es ne- 


gativa. 
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FIGURA 6.8 La curva de Phillips. 
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Una aplicación importante de la figura 6.6b es la conocida curva de Phillips de macroecono- 
mía. Con base en los datos de tasa de variación porcentual de los salarios nominales (Y) y la tasa 
porcentual de desempleo (X) en el Reino Unido durante el periodo 1861 a 1957, Phillips obtuvo 
una curva cuya forma general se parece a la figura 6.66 (figura 6.8).? 

Como muestra la figura 6.8, existe asimetría en la respuesta de los cambios salariales en el 
nivel de la tasa de desempleo: los salarios aumentan con mayor rapidez por cada unidad de 
cambio en el desempleo si la tasa de desempleo está por debajo de UN, denominada por los 
economistas tasa natural de desempleo (que se define como la tasa de desempleo requerida 
para mantener constante la inflación [salarial]), y luego disminuyen despacio por un cambio 
equivalente cuando la tasa de desempleo está por encima del nivel natural, UN, lo que indica el 
piso asintótico, o —f1, para el cambio salarial. Esta característica particular de la curva de Phillips 
puede deberse a factores institucionales, como el poder de negociación de los sindicatos, los 
salarios mínimos, compensaciones por desempleo, etcétera. 

Desde la publicación del artículo de Phillips se efectuó una muy extensa investigación sobre la 
curva de Phillips tanto en el nivel teórico como en el empírico. El espacio de este libro no permite 
estudiar los detalles de la controversia en torno a la curva de Phillips. La curva misma ha pasado 
por diversas representaciones. Una formulación comparativamente reciente la proporciona Oli- 
vier Blanchard.?? Si m; denota la tasa de inflación en el tiempo t, que se define como el cambio 
porcentual en el nivel de precios medido por un índice de precios representativo, como el índice 
de precios al consumidor (IPC), y si UN; denota la tasa de desempleo en el tiempo t, entonces la 
versión moderna de la curva de Phillips se expresa según el siguiente formato: 


me nE = B2(UN: = UN) + ue (6.7.3) 


donde 7; = tasa real de inflación en el tiempo t 
x£ = tasa de inflación esperada en el tiempo t, donde la expectativa se forma en 
el año (t— 1) 


(continúa) 


21 A. W. Phillips, “The Relationship between Unemployment and the Rate of Change of Money Wages in the 
United Kingdom, 1861-1957”, Economica, noviembre de 1958, vol. 25, pp. 283-299. Observe que la curva 
original no cruzó el eje de la tasa de desempleo, pero la figura 6.8 representa una versión posterior de la 
curva. 


22 Véase Olivier Blanchard, Macroeconomics, Prentice Hall, Englewood Cliffs, Nueva Jersey, 1997, capítulo 17. 
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EJEMPLO 6.6 


(continuación) 


UN; = tasa real de desempleo vigente en el tiempo t 
UN = tasa natural de desempleo 
ut = término de error estocástico?? 


Como zf no se puede observar de manera directa, en primer lugar se simplifica con la su- 
posición de que Tf = 1111; es decir, la inflación esperada este año es la tasa de inflación que 
prevaleció el año anterior; por supuesto, se pueden formular suposiciones más complicadas 
respecto de la formación de expectativas, lo cual analizaremos en el capítulo 17, en los modelos 
de retraso distribuido. 

Al sustituir esta suposición en (6.7.3) y escribir el modelo de regresión en la forma estándar, 
obtenemos la siguiente ecuación de estimación: 


Ti = m] = B1 + fB2UN; + ur (6.7.4) 


donde $; = —f2UN, La ecuación (6.7.4) establece que el cambio en la tasa de inflación entre los 
dos periodos está linealmente relacionado con la tasa de desempleo real. A priori, se espera que 
$B2 sea negativa (¿por qué?) y By positiva (porque £2 es negativa y UN es positiva). 

A propósito, la relación de Phillips de (6.7.3) se conoce en la bibliografía como la curva 
de Phillips modificada, curva de Phillips de expectativas aumentadas (para indicar 
que T1 representa la inflación esperada) o curva aceleradora de Phillips (para indicar que 
una tasa de desempleo baja propicia un incremento en la tasa de inflación y, por consiguien- 
te, una aceleración del nivel de precios). 


EJEMPLO 6.7 


A manera de ilustración de la curva de Phillips modificada, en la tabla 6.5 se presentan datos 
sobre la inflación medida por el porcentaje anual en el índice de precios al consumidor (IPCon 
inflación) y la tasa de desempleo de 1960 a 2006. La tasa de desempleo representa la tasa de 
desempleo civil. Con estos datos se obtuvo el cambio en la tasa de inflación (zt — 7m1) y se 
graficó respecto de la tasa de desempleo civil; se utiliza el IPC como medida de la inflación. 
La gráfica resultante aparece en la figura 6.9. 

Como se esperaba, la relación entre el cambio en la tasa de inflación y la tasa de desempleo es 
negativa (un desempleo bajo provoca un incremento en la tasa de inflación y, por consiguiente, 
una aceleración del nivel de precios, de ahí el nombre de curva aceleradora de Phillips). 

Al observar la figura 6.9, no resulta obvio si un modelo de regresión lineal (una línea recta) o 
un modelo recíproco sea el que se ajuste a los datos; tal vez haya una relación curvilínea entre las 
dos variables. Más adelante se presentan regresiones basadas en ambos modelos. Sin embargo, 
hay que tener presente que para el modelo recíproco se espera que el término del intercepto sea 
negativo y la pendiente positiva, como se destacó en la nota 20. 


Modelo lineal: (me— m1) = 3.7844 — 0.6385 UN; 


6.7.5 
t= (4.1912) (-4.2756) r= 0.2935 ( ) 
Modelo recíproco: 
===, 1 
(71 — re1)= —3.0684 + 17.2077( ¡yy ) 
UN: (6.7.6) 


r=) (3.2886)  r?=0.1973 


Todos los coeficientes estimados en ambos modelos son significativos estadística e individual- 
mente; además, todos los valores p son menores que el nivel 0.005. 


23 Los economistas creen que este término de error representa algún tipo de choque en la oferta, como los 
embargos de petróleo de la OPEP en 1973 y 1979. 


TABLA 6.5 

Tasas de inflación y 
desempleo, Estados 
Unidos, 1960-2006 
(para todos los con- 
sumidores urbanos; 
1982-1984 = 100, salvo 
si se indica lo contra- 
rio) 


Fuente: Economic Report of 


the President, 2007, tabla B-60, 


p. 399, para los cambios en el 
IPC, y tabla B-42, p. 376, para 
la tasa de desempleo. 


FIGURA 6.9 
Curva de Phillips modi- 
ficada. 
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Año TSINF TSDES Año TSINF TSDES 
1960 1.718 5.5 1984 4.317 7.5 
1961 1.014 6.7 1985 3.561 7.2 
1962 1.003 5.5 1986 1.859 7.0 
1963 1.325 5.7 1987 3.650 6.2 
1964 1.307 5.2 1988 4.137 5.5 
1965 1.613 4.5 1989 4.818 5.3 
1966 2.857 3.8 1990 5.403 5.6 
1967 3.086 3.8 1991 4.208 6.8 
1968 4.192 3.6 1992 3.010 7.5 
1969 5.460 3.5 1993 2.994 6.9 
1970 5.722 4.9 1994 2.561 6.1 
1971 4.381 579. 1995 2.834 5.6 
1972 3.210 5.6 1996 2.953 5.4 
1973 6.220 4.9 1997 2.294 4.9 
1974 11.036 5.6 1998 1.558 4.5 
1975 9.128 8.5 1999 2.209 4.2 
1976 5.762 7.7 2000 3.361 4.0 
1977 6.503 7.1 2001 2.846 4.7 
1978 7.591 6.1 2002 1.581 5.8 
1979 11.350 5.8 2003 2.279 6.0 
1980 13.499 7.1 2004 2.663 5.5 
1981 10.316 7.6 2005 3.388 5.1 
1982 6.161 9.7 2006 3.226 4.6 
1983 3.212 9.6 


Nota: La tasa de inflación es el cambio porcentual anual en el IPC. La tasa de desempleo es la tasa de desempleo civil. 


Cambio en la tasa de inflación 
o 
5 
o 
o 
Se 
S 


3) 4 5 6 7 8 9 10 
Tasa de desempleo (%) 


El modelo (6.7.5) muestra que si la tasa de desempleo baja un punto porcentual, en pro- 
medio, el cambio en la tasa de inflación aumenta 0.64 puntos porcentuales, y viceversa. El mo- 
delo (6.7.6) revela que, aunque la tasa de desempleo se incrementara de manera indefinida, el 
máximo cambio en la tasa de inflación bajaría y sería de 3.07 puntos porcentuales. A propósito, 
de la ecuación (6.7.5) se puede calcular la tasa de desempleo natural subyacente, de la siguiente 
forma: 


Éi _ 3.7844 
—f2 0.6385 
Es decir, la tasa de desempleo natural es de casi 5.93%. Los economistas sitúan la tasa natural 


entre 5 y 6%, aunque en años recientes la tasa real de desempleo en Estados Unidos ha sido 
mucho más baja. 


UN = = 5.9270 


(6.7.7) 
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FIGURA 6.10 Y 
Modelo recíproco loga- 
rítmico. 


Modelo log hipérbola o recíproco logarítmico 
Concluimos este análisis de los modelos recíprocos con el modelo recíproco logarítmico, que 
adopta la siguiente forma: 


In Y, = bı — Ba (z) +4 (6.7.8) 


Su forma se ilustra en la figura 6.10. Como se muestra ahí, al principio Y se incrementa con una 
tasa creciente (es decir, la curva es convexa al inicio) y luego aumenta con una tasa decreciente 
(la curva se convierte en cóncava).2* Por consiguiente, este modelo sería apropiado para repre- 
sentar una función de producción de corto plazo. Recuerde que la microeconomía establece que 
si el trabajo y el capital son insumos en una función de producción, y si se mantiene constante el 
insumo capital pero se incrementa el insumo mano de obra, la relación entre producto y mano de 
obra de corto plazo se parecerá a la figura 6.10 (véase el ejemplo 7.4 del capítulo 7). 


6.8 Elección de la forma funcional 


En este capítulo se analizaron las distintas formas funcionales que un modelo empírico puede 
tomar, incluso dentro de los confines de los modelos de regresión lineal en los parámetros. La 
elección de una forma funcional particular puede ser relativamente fácil para el caso de dos 
variables, pues se pueden graficar las variables y tener así una ligera idea respecto del modelo 
adecuado. La elección se complica mucho más cuando se considera el modelo de regresión múl- 
tiple que implica más de una regresora, lo cual veremos al analizar este tema en los siguientes 


24 Con el cálculo, se demuestra que 


Pero 
d 1 dY 
gm Y) = Y aX 
Al sustituir, obtenemos 
dY =p Y 
dx "2x2 


que es la pendiente de Y respecto de X. 


TABLA 6.6 
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2 7 dY Aa dY X 
Modelo Ecuación Pendiente = x) Elasticidad = TF) 
5 X * 
Lineal Y= Bi + B2X B2 pa +) 
Log-lineal InY= B1 + Ba In X px) Bo 


Log-lin InY= Bi + fa X Ba (Y) B2(X)* 


Lin-log Y= Bi + Ba In X pa 7) pa 7) 
X We 
Recíproco Y=Bi+ pa +) -e( l ) a 
X E XY 
Y INe 
Recíproco log InY= Bi — pa( 5) pa 32) a(x) 


Nota: * indica que la elasticidad es variable: depende del valor tomado por X o por Y, o por ambas. En la práctica, cuando no se especi- 
fican los valores de X y de Y, es muy frecuente medir estas elasticidades con los valores medios de estas variables, es decir, X y Y. 


dos capítulos. No se niega que se requiere una gran destreza y experiencia al escoger un modelo 
apropiado para la estimación empírica. No obstante, se pueden mencionar algunas sugerencias. 


1. La teoría (por ejemplo, la curva de Phillips) tal vez sugiera una forma funcional particular. 


2. Es una buena costumbre calcular la tasa de cambio (es decir, la pendiente) de la regresada 
respecto de la regresora, así como conocer la elasticidad de la regresada respecto de la regresora. 
Para los diversos modelos estudiados en este capítulo, en la tabla 6.6 se ofrecen las fórmulas 
necesarias para los coeficientes de la pendiente y la elasticidad de los distintos modelos. Conocer 
estas fórmulas le servirá para comparar los diversos modelos. 


3. Los coeficientes del modelo escogido deberán satisfacer determinadas expectativas a 
priori. Por ejemplo, si consideramos la demanda de automóviles como función del precio y otras 
variables, debemos esperar un coeficiente negativo para la variable precio. 


4. Algunas veces, más de un modelo puede ajustarse razonablemente bien a un determinado 
conjunto de datos. En la curva de Phillips modificada, un modelo lineal y otro recíproco se ajus- 
taron a los datos. En ambos casos, los coeficientes resultaron adecuados para las expectativas pre- 
vias y fueron estadísticamente significativos. Una gran diferencia fue que el valor r? del modelo 
lineal fue mayor que el del modelo recíproco. Por tanto, se puede tener una ligera preferencia por 
el modelo lineal en comparación con el recíproco. Pero se debe asegurar de que, al comparar 
dos valores de r?, la variable dependiente (o regresada) de los dos modelos sea la misma; la(s) 
regresora(s) pueden tomar cualquier forma. En el siguiente capítulo veremos por qué. 


5. En general, no se debe sobrevaluar la medida de r? en el sentido de creer que mientras más 
alta sea r? mejor será el modelo. Como analizaremos en el siguiente capítulo, r? se incrementa 
conforme se añaden más regresoras al modelo. Lo que reviste mayor importancia es la justi- 
ficación teórica del modelo elegido, los signos de los coeficientes estimados y su importancia 
estadística. Si un modelo es bueno conforme a estos criterios, quizá resulte aceptable un modelo 
con una r? menor. Examinaremos de nuevo este importante tema con mayor profundidad en el 
capítulo 13. 


6. En algunas situaciones tal vez no sea fácil ponerse de acuerdo sobre una forma funcional 
concreta, en cuyo caso se pueden usar las llamadas transformaciones Box-Cox. En vista de que 
este tema es muy técnico, analizamos el procedimiento Box-Cox en el apéndice 6A.5. 
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*6.9 Nota sobre la naturaleza del término de error estocástico: 


término de error estocástico aditivo o multiplicativo 


Considere el siguiente modelo de regresión, similar a (6.5.1) pero sin el término de error: 
Y, = p XP (6.9.1) 


Para fines de estimación, este modelo se expresa de tres formas: 


Y, = B1X*u (6.9.2) 
Y, = pı XP eu (6.9.3) 
Y, = pı XË + ui (6.9.4) 


Al tomar logaritmos de ambos lados de estas ecuaciones, obtenemos 


ln Y; = æ + f2 ln X; + lnu; (6.9.2a) 
In Y; =0+B21nX, + ui (6.9.3a) 
In Y, = In (8, XP + u;) (6.9.4a) 


donde a = In Bj. 

Los modelos como (6.9.2) son de regresión intrínsecamente lineales (en los parámetros), en 
el sentido de que, mediante una transformación (log) adecuada, los modelos se hacen lineales 
en los parámetros «œ y B2. (Nota: Estos modelos son no lineales en £1.) Pero el modelo (6.9.4) 
intrínsecamente es no lineal en los parámetros. No hay una manera simple de obtener el log de 
(6.9.4) porque In (4 + B) # ln A + In B. 

A pesar de que las ecuaciones (6.9.2) y (6.9.3) son modelos de regresión lineal y se estiman 
por minimos cuadrados ordinarios (MCO) o máxima verosimilitud (MV), se debe tener cuidado 
sobre las propiedades del término de error estocástico considerado en estos modelos. Recuerde 
que la propiedad MELI de MCO (mejor estimador lineal insesgado) exige que el valor de la 
media de u; sea cero, y que tenga varianza constante y autocorrelación cero. Para la prueba de 
hipótesis suponemos además que u; sigue una distribución normal con los valores de la media y 
la varianza recién estudiados. En resumen, supusimos que u; ~ N(0, o°). 

Ahora considere el modelo (6.9.2). Su contraparte estadística está dada en (6.9.2a). Para utili- 
zar el modelo clásico de regresión lineal normal (MCRLN) debemos suponer que 


In u; ~ N(0, 0?) (6.9.5) 


Por consiguiente, cuando realicemos la regresión (6.9.2a), se tendrán que aplicar las pruebas de 
normalidad estudiadas en el capítulo 5 a los residuos obtenidos de esta regresión. A propósito, 
observe que si ln u; sigue la distribución normal con media cero y varianza constante, la teoría 
estadistica muestra que u; en (6.9.2) debe seguir la distribución log-normal con media enn y 
varianza e (e? — 1). 

Como muestra el análisis anterior, se tiene que prestar mucha atención al término de error al 
transformar un modelo para el análisis de regresión. En cuanto a (6.9.4), se trata de un modelo de 
regresión no lineal en los parámetros, y deberá resolverse mediante algún procedimiento compu- 
tacional iterativo. La estimación del modelo (6.9.3) no debe presentar ningún problema. 


* Opcional. 
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Para resumir, se debe prestar atención al término de perturbación cuando se transforme un 


modelo para el análisis de regresión. De lo contrario, una aplicación a ciegas de MCO al modelo 
transformado no producirá un modelo con las propiedades estadísticas deseables. 


Resumen y 
conclusiones 


En este capítulo se presentaron diversos aspectos detallados del modelo clásico de regresión 
lineal (MCRL). 


1 


. Algunas veces, un modelo de regresión puede no contener un término de intercepto explícito. 


Estos modelos se conocen como regresión a través del origen. A pesar de que el álgebra 
requerida en la estimación de tales modelos es simple, se deben utilizar con cautela. En tales 
modelos, la suma de los residuos ) &; es diferente de cero; además, el r? calculado conven- 
cionalmente puede no tener significado. A menos que exista una sólida razón teórica, es mejor 
introducir el intercepto explícitamente en el modelo. 


. Las unidades y la escala en que se expresan la regresada y la(s) regresora(s) son muy impor- 


tantes, pues la interpretación de los coeficientes de regresión depende de ellas en gran medida. 
En la investigación empírica, el encargado no sólo debe citar la fuente de los datos, sino tam- 
bién describir explícitamente la forma como se miden las variables. 


. Es de igual importancia la forma funcional de la relación entre la regresada y la(s) regresora(s). 


Algunas formas funcionales importantes estudiadas en este capítulo son a) el modelo log-li- 
neal o de elasticidad constante, b) los modelos de regresión semilogarítmicos y c) los modelos 
recíprocos. 


. En el modelo log-lineal, la regresada y la(s) regresora(s) se expresan en forma logarítmica. El 


coeficiente de regresión asociado al log de una regresora se interpreta como la elasticidad de 
la regresada respecto de la regresora. 


. En el modelo semilog, la regresada o la(s) regresora(s) están en la forma de log. En el mo- 


delo semilogarítmico, en el cual la regresada es logarítmica y la regresora X es tiempo, el 
coeficiente de la pendiente estimado (multiplicado por 100) mide la tasa de crecimiento (ins- 
tantánea) de la regresada. Tales modelos son comunes para medir la tasa de crecimiento de 
muchos fenómenos económicos. En el modelo semilogarítmico, si la regresora es logarítmica, 
su coeficiente mide la tasa de cambio absoluta en la regresada por un cambio porcentual dado 
en el valor de la regresora. 


. En los modelos recíprocos, la regresada o la regresora se expresa en forma recíproca o inversa 


para denotar relaciones no lineales entre variables económicas, como en la conocida curva de 
Phillips. 


. Al seleccionar las diversas formas funcionales, debe prestarse gran atención al término de 


perturbación estocástica u;. Como vimos en el capítulo 5, el MCRL supone explicitamente que 
el valor de la media del término de perturbación es cero y su varianza es constante (homosce- 
dástica), y que no está correlacionado con la(s) regresora(s). Con estos supuestos, los estima- 
dores de MCO son MELI. Además, según el MCRLN, los estimadores de MCO están también 
normalmente distribuidos. Por consiguiente, se debe verificar si estos supuestos se mantienen 
en la forma funcional escogida para el análisis empírico. Después de realizar la regresión, el 
investigador debe aplicar pruebas de diagnóstico, como la de normalidad, estudiada en el ca- 
pítulo 5. Nunca sobra insistir en este punto, pues las pruebas de hipótesis clásicas, como la £, 
F y x?, dependen del supuesto de que las perturbaciones están normalmente distribuidas. Esto 
es en especial importante si la muestra es pequeña. 


. Si bien el análisis hasta ahora se ha limitado a modelos de regresión con dos variables, los 


siguientes capítulos mostrarán que, en muchos casos, la extensión a modelos de regresión 
múltiple sólo implica más álgebra sin introducir necesariamente más conceptos fundamen- 
tales. Por esta razón, es muy importante que el lector tenga un concepto claro del modelo de 
regresión de dos variables. 
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EJERCICIOS 


Preguntas 


6.1. 


6.2. 


6.3. 


Considere el modelo de regresión 
Yi = Pi + Pax; + ui 


donde y; = (Y; — Y) y x; = (X; — X). En este caso, la línea de regresión debe pasar a 
través del origen. ¿Cierto o falso? Muestre sus cálculos. 


Con base en datos mensuales de enero de 1978 a diciembre de 1987 se obtuvieron los 
siguientes resultados de regresión: 


Y, = 0.00681 + 0.75815X, 
ee = (0.02596) (0.27009) 
t = (0.26229) (2.80700) 


valor p = (0.7984) (0.0186) r? = 0.4406 
Y, = 0.76214X, 
ee = (0.265799) 
t = (2.95408) 
valor p = (0.0131) r? = 0.43684 


donde Y = tasa mensual de rendimiento de las acciones comunes de Texaco, %, y X = tasa 
mensual de rendimiento del mercado, %.* 


a 


= 


¿Cuál es la diferencia entre los dos modelos de regresión? 

b) Con los resultados anteriores, ¿conservaría el término del intercepto en el primer mo- 
delo? ¿Por qué? 

Cc 


== 


¿Cómo interpretaría los coeficientes de la pendiente en los dos modelos? 
d) ¿Cuál es la teoría en los dos modelos? 
e) ¿Puede comparar los términos r? de los dos modelos? ¿Por qué? 


de 


== 


El estadístico de normalidad de Jarque-Bera para el primer modelo en este problema es 
1.1167 y para el segundo modelo es 1.1170. ¿Qué conclusiones puede obtener de estos 
estadísticos? 


s 


El valor £ del coeficiente de la pendiente en el modelo con intercepto cero es aproxi- 
madamente 2.95, mientras que con el intercepto presente tiene un valor aproximado de 
2.81. ¿Puede explicar este resultado? 


g 


Considere el siguiente modelo de regresión: 


TEA 

Nota: Ni X ni Y asumen el valor cero. 

a) ¿Es un modelo de regresión lineal? 

b) ¿Cómo estimaría este modelo? 

c) ¿Cuál es el comportamiento de Y a medida que X tiende a infinito? 

d) ¿Puede dar un ejemplo de un caso en el cual sea adecuado un modelo de esta clase? 


* Los datos originales se obtuvieron del disquete de datos de Ernst R. Bernat, The Practice of Econometrics: 
Classic and Contemporary, Addison-Wesley, Reading, Massachusetts, 1991. 


6.4. 


6.5. 


6.6. 


6.7. 
6.8. 


6.9. 


6.10. 


6.11. 
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Considere el modelo log-lineal: 
In Y, = i + o Ae +u; 
Grafique Yen el eje vertical y Xen el horizontal. Trace las curvas que exhiben la relación 


entre Y y X cuando f2 = 1, cuando f2 > 1 y cuando f2 < 1. 


Considere los siguientes modelos: 


Modelo I: Y; = bı + b2Xi + ui 
Modelo II: Y* =01+0%X + ui 
donde Y* y X* son variables estandarizadas. Demuestre que âz = BAS: /S,) y, de allí, es- 


tablezca que, a pesar de que los coeficientes de pendiente son independientes de un cambio 
de origen, no lo son de un cambio de escala. 


Considere los siguientes modelos: 
In Y? =01 + œz ln X* + už 
aih = i + B2 AG +u; 


donde Y* = w1 Y; y Xý = w2X;, con las w constantes. 
a) Establezca las relaciones entre los dos conjuntos de coeficientes de regresión y sus 
errores estándar. 


b) ¿Es diferente el r? en los dos modelos? 
Entre las regresiones (6.6.8) y (6.6.10), ¿qué modelo es preferible? ¿Por qué? 


Para la regresión (6.6.8), pruebe la hipótesis de que el coeficiente de la pendiente no es 
significativamente diferente de 0.005. 


De la curva de Phillips estimada dada en (6.7.3), ¿es posible estimar la tasa natural de 
desempleo? ¿Cómo? 


La curva de gasto de Engel relaciona el gasto del consumidor sobre un bien con su ingreso 
total. Sea Y = el gasto de consumo sobre un bien y X = ingreso del consumidor, y consi- 
dere los siguientes modelos: 


Y, = pi + 2X; + ui 

Y; = B1+ BA1/X;) + ui 
ln Y; = ln 61 + f2 ln X; + ui 
ln Y, = ai + E) u; 

Y, = pı + f2ln X; + ui 


¿Cuál(es) de estos modelo(s) escogería para la curva de gasto de Engel y por qué? (Suge- 
rencia: Interprete los diversos coeficientes de pendiente, encuentre las expresiones para la 
elasticidad del gasto respecto del ingreso, etcétera.) 


Considere el siguiente modelo: 


ef1+b2Xi 
o 1+ ebi+B2X; 
Tal como se presenta, ¿es un modelo de regresión lineal? Si no es así, ¿qué “truco” podría 
utilizar, si acaso, para convertirlo en un modelo de regresión lineal? ¿Cómo interpretaría el 
modelo resultante? ¿En qué circunstancias sería adecuado dicho modelo? 
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6.12. Grafique los siguientes modelos (para mayor sencillez, se omitieron los subíndices de ob- 
servación, 1): 
a) Y = B¡X?, para b > 1, B2=1,0< b2 < 1,... 
b) Y=Bjeb% para f2>0y B2<0. 
Analice dónde serían adecuados estos modelos. 
6.13 Considere la siguiente regresión:* 
ISP, = —17.8 + 33.2 Gini; 
ee= (4.9) (11.8) 06 
donde ISP = índice de inestabilidad sociopolítica, promedio para 1960-1985, y Gini = 
coeficiente de Gini para 1975, o el año más próximo disponible dentro del periodo 1970- 
1980. La muestra consta de 40 países. 
El coeficiente de Gini es una medida de la desigualdad del ingreso y se sitúa entre 0 y 
1. Cuanto más cerca se encuentre de 0, mayor será la igualdad del ingreso, y cuanto más 
próximo se encuentra de 1, mayor será la desigualdad del ingreso. 
a) ¿Cómo interpreta esta regresión? 
b) Suponga que el coeficiente de Gini se incrementa de 0.25 a 0.55. ¿Cuánto aumentaría 
el ISP? ¿Qué significa eso en la práctica? 
c) ¿El coeficiente estimado de la pendiente es estadísticamente significativo al nivel de 
5%? Realice los cálculos necesarios. 
d) Con base en la regresión anterior, ¿diría que los países con mayor desigualdad del in- 
greso son políticamente inestables? 


Ejercicios empíricos 
6.14. Con los datos de la tabla 6.7,** ajuste el siguiente modelo a dichos datos, obtenga las es- 
tadísticas usuales de regresión e interprete los resultados: 


100 os 1 
men A AF 


TABLA 6.7 Y, 86 79 76 69 65 62 52 51 51 48 
Xi 3 7 12 17 25 35 45 55 70 120 


6.15. Para estudiar la relación entre tasa de inversión (el gasto en inversión como razón del PNB) 
y la tasa de ahorro (el ahorro como razón del PNB), Martin Feldstein y Charles Horioka 
recopilaron datos para una muestra de 21 países. (Véase la tabla 6.8.) La tasa de inversión 
de cada país es la tasa promedio correspondiente al periodo 1960-1974, y la tasa de ahorro 
es la tasa de ahorro promedio para el periodo 1960-1974. La variable TASINV representa 
la tasa de inversión, y la variable TASAHO, la tasa de ahorro.* 


a) Grafique la tasa de inversión contra la tasa de ahorro. 
b) Con base en esta gráfica, ¿considera que los siguientes modelos puedan ajustarse a los 
datos igualmente bien? 
Tasinv; = fı + f2Tasaho; + u; 
In Tasinv; = 1 + 0% In Tasaho; + u; 


c) Estime estos dos modelos y obtenga las estadísticas habituales. 


* Véase David N. Weil, Economic Growth, Addison-Wesley, Boston, 2005, p. 392. 

** Adaptado de J. Johnston, Econometric Methods, 3a. ed., McGraw-Hill, Nueva York, 1984, p. 87. En reali- 
dad, esta información se tomó de un examen de econometría de la Universidad de Oxford, 1975. 

t Martin Feldstein y Charles Horioka, “Domestic Saving and International Capital Flows”, Economic Journal, 
vol. 90, junio de 1980, pp. 314-329. Datos reproducidos de Michael P. Murray, Econometrics: A Modern In- 
troduction, Addison-Wesley, Boston, 2006. 
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IÓ TASAHO TASINV 
Alemania 0.271 0.264 
Australia 0.250 0.270 
Austria 0.285 0.282 
Bélgica 0.235 0.224 
Canadá 0.219 0.231 
Dinamarca 0.202 0.224 
España 0.235 0.241 
Estados Unidos 0.186 0.186 
Finlandia 0.288 0.305 
Francia 0.254 0.260 
Grecia 0.219 0.248 
Irlanda 0.190 0.218 
Italia 0.235 0.224 
Japón 0.372 0.368 
Luxemburgo 0.313 0.277 
Noruega 0.278 0.299 
Nueva Zelanda 0.232 0.249 
Países Bajos 0.273 0.266 
Reino Unido 0.184 0.192 
Suecia 0.241 0.242 
Suiza 0.297 0.297 


Nota: TASAHO = Ahorro como razón del PIB. 
TASINV = Gasto en inversión como razón del PIB. 


d) ¿Cómo interpretaría el coeficiente de la pendiente en el modelo lineal? ¿Y en el modelo 
log-lineal? ¿Hay alguna diferencia en la interpretación de estos coeficientes? 

e) ¿Cómo interpretaría los interceptos de los dos modelos? ¿Hay alguna diferencia en la 
Interpretación? 

f) ¿Compararía los dos coeficientes r?? ¿Por qué? 

g) Suponga que desea calcular la elasticidad de la tasa de inversión respecto de la tasa de 
ahorro. ¿Cómo obtendría esta elasticidad para el modelo lineal? ¿Y para el modelo log- 
lineal? Tenga en cuenta que esta elasticidad se define como el cambio porcentual de la 
tasa de inversión correspondiente a un cambio porcentual en la tasa de ahorro. 

h) Con los resultados de los dos modelos de regresión, ¿qué modelo preferiría? ¿Por qué? 


6.16. La tabla 6.9* presenta las definiciones de las variables para diversos tipos de gastos, gasto 
total, ingreso, edad del jefe de la familia y número de hijos para una muestra de 1 519 
familias, que se obtuvo de los Estudios Económicos de Gasto de las Familias Británicas 
1980-1982. 

El conjunto original de datos se encuentra en la página de internet de este texto. Los datos 

incluyen sólo a familias con uno o dos hijos que viven en la zona metropolitana de Lon- 

dres. La muestra no incluye a familias de personas que trabajan por su cuenta o jubiladas. 

a) Con los datos sobre el gasto alimentario en relación con el gasto total, determine qué 
modelos de los que se resumieron en la tabla 6.6 se ajustan a estos datos. 

b) Con base en los resultados de regresión obtenidos en a), ¿qué modelo parece el más 
apropiado en el presente caso? 

Nota: Guarde estos datos para análisis posterior en el siguiente capítulo sobre regresión 

múltiple. 


* Los datos son de Richard Blundell y Krishna Pendakur, “Semiparametric Estimation and Customer de- 
mand”, Journal of Applied Econometrics, vol. 13, núm. 5, 1998, pp. 435-462. Los datos se reproducen de R. 
Carter Hill, William E. Griffiths y George G. Judge, Undergraduate Econometrics, 2a. ed., John Wiley & Sons, 
Nueva York, 2001. 
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TABLA 6.9 Lista de variables: 


wfood = participación del presupuesto destinado al gasto en alimentos 

wfuel = participación del presupuesto destinado al gasto en combustibles 
wcloth = participación del presupuesto destinado al gasto en ropa 

walc = participación del presupuesto destinado al gasto en bebidas alcohólicas 
wtrans = participación del presupuesto destinado al gasto en transporte 
wother = participación del presupuesto destinado a otros gastos 


totexp = gasto total familiar 
(redondeado a las 10 libras esterlinas más próximas) 
income = ingreso total neto familiar 
(redondeado a las 10 libras esterlinas más próximas) 
age = edad del jefe de la familia 
nk = número de hijos 
La participación del presupuesto destinado a un concepto, por ejemplo, alimentos, se 
define como: 
gasto en alimentos 


wfood = 
gasto total 


6.17. Remítase a la tabla 6.3. Determine la tasa de crecimiento del gasto en bienes duraderos. 
¿Cuál es la semielasticidad estimada? Interprete sus resultados. ¿Tendría sentido hacer una 
regresión doble logarítmica con el gasto en bienes duraderos como la variable dependiente 
(regresada) y el tiempo como la regresora? ¿Cómo interpretaría la pendiente del coefi- 
ciente en este caso? 

6.18. A partir de los datos de la tabla 6.3, calcule la tasa de crecimiento del gasto en bienes pe- 
recederos y compare los resultados con los obtenidos en el ejercicio 6.17. 

6.19. La tabla 6.10 presenta datos sobre el gasto de consumo total en el Reino Unido (en millo- 
nes de £) y el gasto en publicidad (en millones de £) correspondientes a 29 categorías de 
producto.* 

a) Considerando las diferentes formas funcionales que analizamos en el capítulo, ¿qué 
forma funcional puede ajustarse a los datos de la tabla 6.107 

b) Estime los parámetros del modelo de regresión seleccionado e interprete sus resulta- 
dos. 

c) Si toma la razón entre el gasto en publicidad y el gasto de consumo total, ¿qué observa? 
¿Hay alguna categoría de producto en la que esta razón parezca extraordinariamente 
alta? ¿Estas categorías de producto tienen algo especial que explique el gasto relativa- 
mente alto en publicidad? 

6.20. Remítase al ejemplo 3.3 del capítulo 3 para realizar lo siguiente: 

a) Grafique la demanda de teléfonos celulares contra el ingreso per capita ajustado por el 
poder adquisitivo (PA). 

b) Grafique la demanda de teléfonos celulares contra el log del ingreso per cápita ajustado 
por el poder adquisitivo (PA). 

c) ¿Qué diferencia hay entre las dos gráficas? 

d) Con base en estas dos gráficas, ¿cree que un modelo doble logaritmo puede ofrecer un 
mejor ajuste a los datos que el modelo lineal? Estime el modelo doble-log. 

e) ¿Cómo interpreta el coeficiente de la pendiente en el modelo doble-log? 

J) ¿El coeficiente estimado de la pendiente en el modelo doble-log es estadísticamente 
significativo en el nivel de 5%? 


* Estos datos se tomaron del Advertising Statistics Year Book, 1996, y se reproducen de http://www.Econo- 
micswebinstitute.org/ecdata.htm. 
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TABLA 6.10. Obs GASPUB GASCON RAZÓN 
Gasto en publicidad y 
E 1 87 957.00 13 599.00 0.006468 
(en millones de £) en 29 2 23 578.00 4 699.000 0.005018 
AEE O ARE 3 16 345.00 5 473.000 0.002986 
nido 4 6 550.000 6 119.000 0.001070 
5 10 230.00 8 811.000 0.001161 
Fuente: http://www. 6 9 127.000 1 142.000 0.007992 
O 7 1 675.000 143.0000 0.011713 
TER 8 1 110.000 138.0000 0.008043 
9 3 351.000 85.00000 0.039424 
10 1 140.000 108.0000 0.010556 
11 6 376.000 307.0000 0.020769 
12 4 500.000 1 545.000 0.002913 
13 1 899.000 943.0000 0.002014 
14 10 101.00 369.0000 0.027374 
15 3 831.000 285.0000 0.013442 
16 99 528.00 1 052.000 0.094608 
17 15 855.00 862.0000 0.018393 
18 8 827.000 84.00000 0.105083 
19 54 517.00 1 174.000 0.046437 
20 49 593.00 2 531.000 0.019594 
21 39 664.00 408.0000 0.097216 
22 327.0000 295.0000 0.001108 
23 22 549.00 488.0000 0.046207 
24 416 422.0 19 200.00 0.021689 
25 14 212.00 94.00000 0.151191 
26 54 174.00 5 320.000 0.010183 
27 20 218.00 357.0000 0.056633 
28 11 041.00 159.0000 0.069440 
29 22 542.00 244.0000 0.092385 


Notas: GASPUB = gasto en publicidad (en millones de £). 
GASCON = Gasto de consumo total (en millones de £). 


g) Cómo estimaría la elasticidad de la demanda de teléfonos celulares respecto del ingreso 
ajustado por el poder adquisitivo para el modelo lineal de la ecuación (3.7.3)? ¿Qué 
información adicional, si acaso, se necesita? Llame elasticidad ingreso a la elasticidad 
estimada. 

h) ¿Hay alguna diferencia entre la elasticidad ingreso estimada con base en el modelo 
doble-log y la que se estimó con el modelo lineal? De ser así, ¿qué modelo elegiría? 

6.21. Repita el ejercicio 6.20, pero remítase a la demanda de computadoras personales presen- 
tada en la ecuación (3.7.4). ¿Hay alguna diferencia entre la elasticidad ingreso estimada 
de los teléfonos celulares y la de las computadoras personales? De ser así, ¿qué factores 
pueden explicar la diferencia? 

6.22. Consulte los datos de la tabla 3.3. Para averiguar si las personas con computadoras perso- 
nales tienen también teléfonos celulares, ejecute la siguiente regresión: 

Telcelular; = 61 + B2PCs; + ui 

a) Estime los parámetros de esta regresión. 

b) ¿El coeficiente estimado de la pendiente es estadísticamente significativo? 

c) ¿Importa si se ejecuta la siguiente regresión? 

PCs; = a + a Telcelular, + u; 

d) Estime la regresión anterior y pruebe la significancia estadística del coeficiente esti- 
mado de la pendiente. 

e) ¿Cómo decidiría entre la primera y la segunda regresión? 
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Apéndice ÓA 


6A.1 Derivación de los estimadores de mínimos 
cuadrados para la regresión a través del origen 


Deseamos reducir 


Ya = NO — ÊX) (1) 


respecto de b. 
Al diferenciar (1) respecto de f2, obtenemos 


dy? 


— =2 D — B2X NX) (2) 
df> 
Al igualar (2) a cero y simplificar, obtenemos 
a Y AGIA 
= 6.1 .6 = 3 
e (6.1.6) = (3) 


Ahora sustituimos la FRP: Y; = 2X; + u; en esta ecuación, y obtenemos 


a A BA +45) 
me» > 


DA 
= fdk DA 4) 
a 
[Nota: E(f>) = f».] Por consiguiente, 
A Xu; Y 
Eea- p? a (5) 


Al expandir el lado derecho de (5) y observar que las X; son no estocásticas y las u; son homoscedásticas y 
no correlacionadas, tenemos 


2 


A A O 
var = E(B, — Ba? = 6.1.7) = (6 
(b2) = E(B2 — b2) yr ( ) = (6) 
A propósito, observe que a partir de (2) obtenemos, después de igualarla a cero, 
Di (7) 


Del apéndice 3A, sección 3A.1, vemos que, cuando el término del intercepto está presente en el modelo, 

obtenemos, además de (7), la condición ` ů; = 0. Del desarrollo matemático anterior debe quedar clara la 

razón por la cual la regresión a través del origen puede no tener la suma de errores, » > %2;, igual a cero. 
Suponga que deseamos imponer la condición » > 4;= 0. En ese caso, tenemos 


NI XLINL 


A (8) 
= j Da pues y ás = ( por construcción 
Esta expresión entonces da 
A Y; 
o= = - 
= (9) 


ZLE valor de la media de Y 
X valor de la media de X 


Pero este estimador no es el mismo que el definido antes en (3) o en (6.1.6). Y como el $, de (3) es insesgado 
(¿por qué?), el $, de (9) no puede serlo. 

El punto clave es que, en la regresión a través del origen, no es posible igualar Y 4;X, y )ú;¡a cero, 
como en el modelo convencional. La única condición que se satisface es que ) > ú; X; es cero. 
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Recuerde que 
Y =Y%+% (2.6.3) 
Al sumar esta ecuación en ambos lados y dividir entre N el tamaño de la muestra, obtenemos 
F=f (10) 


Como para el modelo de intercepto cero Y” ù; y, por consiguiente ú, no necesariamente es cero, se cumple 
que 


PAT (11) 


es decir, la media de los valores observados de Y no necesita ser igual a la media de los valores estimados de 
Y; los dos valores de las medias son idénticos en el modelo con intercepto, como se ve en (3.1.10). 
Se observó que, para el modelo de intercepto cero, el r? puede ser negativo, mientras que para el modelo 
convencional, nunca puede ser negativo. Esta condición se demuestra de la siguiente manera: 
Con (3.5.5a), escribimos 
2-1- $R] Da 
sT) y 


Ahora, para el modelo convencional, o con presencia de intercepto, la ecuación (3.3.6) muestra que 


R=) O (13) 


a menos que fz sea cero (es decir, X no ejerce influencia alguna sobre Y). Dicho de otro modo, para el mo- 
delo convencional, SCR < SCT, y así, el r? nunca podrá ser negativo. 
De la misma forma, para el modelo de intercepto cero, se demuestra que 


SRED 14) 


(Nota: Las sumas de los cuadrados de Y y X no están ajustadas por la media.) Ahora, no existe garantía de 
que esta SCR sea siempre menor que >” y? =>» A — NY? (la SCT), lo cual indica que la SCR puede ser 
mayor que la SCT, y esto implica que el r?, como se definió convencionalmente, puede ser negativo. A pro- 
pósito, observe que, en este caso, la SCR será mayor que la SCT si B ` IG < NY? 


(12) 


6A.2 Prueba de que la variable estandarizada tiene 
media cero y varianza unitaria 


Considere la variable aleatoria (v.a.) Y con valor medio (muestral) Y y desviación estándar (muestral) de 
Sy. Defina N 

Y-Y 

y= (15) 
Sy 
Por tanto, Y* es una variable estandarizada. Observe que la estandarización implica una operación dual: 1) 
el cambio del origen, que es el numerador de (15), y 2) la variación de escala, que es el denominador. En 
consecuencia, la estandarización implica una modificación en el origen y en la escala. 
Ahora, 


ELA 

Te = 
Sy n 

pues la suma de la desviación de una variable respecto del valor de su media siempre es cero. Así, el valor 

de la media del valor estandarizado es cero. (Nota: Podemos sacar el término S, del signo de la sumatoria 


porque su valor es conocido.) 


0 (16) 


Ahora, F 
e 
= =D 2o a2) 
(n= 1)S2 
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Observe que 


A 
y n=1 
lo cual es la varianza muestral de Y. 
6A.3 Logaritmos 
Considere los números 5 y 25. Sabemos que 
25 = 5? (18) 


Decimos que el exponente 2 es el logaritmo de 25 con base 5. En términos más formales, el logaritmo de 
un número (por ejemplo, 25) con una base determinada (por ejemplo, 5) es la potencia (2) a la que debe 
elevarse la base (5) para obtener el número dado (25). 

De manera más general, si 


Y=b*(b > 0) (19) 
entonces 
log, Y = X (20) 


En matemáticas, la función (19) se llama función exponencial, y la función (20), función logarítmica. Como 
queda claro por las ecuaciones (19) y (20), una función es el inverso de la otra. 

Aunque se puede usar cualquier base (positiva), en la práctica las dos bases más comunes son 10 y el 
número matemático e = 2.71828 ... 

Los logaritmos base 10 se llaman logaritmos comunes. Así, 


logio 100 = 2 log1030 = 1.48 


Es decir, en el primer caso, 100 = 102, y en el segundo, 30 ~ 1014, 


Los logaritmos base e se llaman logaritmos naturales. Por tanto, 
log,100 ~ 4.6051 y log,30 ~ 3.4012 


Todos estos cálculos suelen realizarse con una calculadora de mano. 

Por convención, el logaritmo base 10 se denota por medio de las letras log, y el logaritmo base e, por In. 
Así, en el ejemplo anterior, se puede escribir log 100 o log 30, o In 100 o In 30. 

Existe una relación fija entre el log común y el log natural, que es 


In X= 2.3026 log X (21) 


Es decir, el logaritmo natural del número X es igual a 2.3026 veces el logaritmo de X base 10. Por consi- 
guiente, 


In 30 = 2.3026 log 30 = 2.3026 (1.48) = 3.4012 (aprox.) 


como antes. Por tanto, no importa si se usan logaritmos comunes o naturales. Sin embargo, en matemáticas, 
la base que casi siempre se prefiere es e, es decir, el logaritmo natural. En consecuencia, en este libro todos 
los logaritmos son naturales, a menos que expresamente se indique lo contrario. Por supuesto, se puede 
convertir el logaritmo de un número de una base a la otra con la ecuación (21). 

Tenga presente que los logaritmos de los números negativos no están definidos. Por tanto, el logaritmo 
de (—5) o el In (—5) no está definido. 

Algunas propiedades de los logaritmos son las siguientes: si 4 y B son números positivos, se demuestra 
que: 


dí In (4 x B)=InA + In B (22) 


Es decir, el logaritmo del producto de dos números (positivos) 4 y B es igual a la suma de sus logarit- 
mos. 


Le In (4/B) = In A — In B (23) 


FIGURA 6A.1 
Funciones exponencial y 
logarítmica: a) función 
exponencial; b) función 
logarítmica. 
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Es decir, el logaritmo de la razón de 4 a B es la diferencia entre los logaritmos de 4 y B. 
de In4+B)%1In4=InB (24) 


Es decir, el logaritmo de la suma o diferencia de 4 y B no es igual a la suma o diferencia de sus loga- 
ritmos. 


4. ln (45) = kln A (25) 
Es decir, el logaritmo de A elevado a la potencia k es k veces el logaritmo de 4. 

5. Ine=1 (26) 
Esto es, el logaritmo de e base e es 1 (lo mismo que el log de 10 base 10). 

6. Inl=0 (27) 
Es decir, el logaritmo natural del número 1 es cero (al igual que el logaritmo común del número 1). 


7. SiY=1InX 


dY 1 
poca E ial 28 
JX TEY (28) 

Esto es, la tasa de cambio (es decir, la derivada) de Y respecto de X es 1 sobre X. Las funciones exponen- 
cial y logarítmica (natural) se muestran en la figura 64.1. 

Aunque el número cuyo logaritmo se toma es siempre positivo, el logaritmo de dicho número puede ser 
positivo o negativo. Se comprueba fácilmente que si 


0O<Y<l1 entonces InY <0 
Y=I críos o =A 


Y>1 entonces InY > 0 


Además, observe que, aunque la curva logarítmica que se ilustra en la figura 6A.1b) se inclina positi- 
vamente, lo que implica que cuanto más grande sea el número mayor será también el valor logarítmico, la 
curva se incrementa con una tasa decreciente (en matemáticas, la segunda derivada de la función es nega- 
tiva). Así, In(10) = 2.3026 (aproximadamente) y In(20) = 2.9957 (aproximadamente). Esto es, si un número 
se duplica, su logaritmo no aumenta al doble. 

Por esta razón, la transformación logarítmica se llama transformación no lineal. Esto también se aprecia 
en la ecuación (28), que indica que si Y = In X, dY/dX = 1/X. Esto significa que la pendiente de la función 
logarítmica depende del valor de X es decir, no es constante (recuerde la definición de linealidad en la 
variable). 

Logaritmos y porcentajes: Como ati ) = t o d(ln X) = 3 para cambios muy pequeños, el cambio 
en In X es igual al cambio relativo o proporcional en X. En la práctica, si el cambio en X es razonablemente 
pequeño, la relación anterior se escribe como el cambio en In X= al cambio relativo en X, donde ~ significa 
aproximadamente igual. 


ye YX X= ll Y 


X=In Y 


45° 45° 


a) b) 
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Así, para cambios pequeños, 
(X, Ep X,-1) 


(In X, — ln X1) = CEA = cambio relativo en Y 
n=l 


6A.4 Fórmulas para calcular la tasa de crecimiento 


Sea la variable Y una función del tiempo, Y = f(+), donde + denota tiempo. La tasa de crecimiento instantánea 
(es decir, en un momento dado) de Y, gy se define como 

_dY/dt  1dY 
MA 


gr (29) 


Observe que si multiplicamos gy por 100, obtenemos la tasa porcentual de crecimiento, donde a es la tasa 
de cambio de Y respecto del tiempo. 

Ahora bien, si In Y = Inf(f), donde In representa el logaritmo natural, entonces 

dinY leo Fi 

dt — Y dt Go 


Esto es lo mismo que la ecuación (29). 

Por tanto, las transformaciones logarítmicas son muy útiles para calcular tasas de crecimiento, en espe- 
cial si Y es una función de otras variables dependientes del tiempo, como demostrará el siguiente ejemplo. 
Sea 


Y=X-Z (31) 


donde Y es el PIB nominal, X el PIB real y Z el factor de deflación de los precios (PIB). En otras palabras, el 
PIB nominal es el PIB real multiplicado por el factor de deflación de los precios (PIB). Todas estas variables 
son funciones del tiempo, pues varían con su transcurso. 

Ahora, al tomar los logaritmos en ambos miembros de la ecuación (31), obtenemos: 


ln Y=1In X+ In Z (32) 
Diferenciamos la ecuación (32) respecto del tiempo y nos da 


1dY _ 14X 1dZ 
You ă Xdi | Z di 


(33) 


esto es, Zy = Zy + gz donde g representa la tasa de crecimiento. 

De manera verbal, la tasa de crecimiento instantánea de Y es igual a la suma de la tasa de crecimiento 
instantánea de X más la tasa de crecimiento instantánea de Z. En el presente ejemplo, la tasa de crecimien- 
to instantánea del PIB nominal es igual a la suma de la tasa de crecimiento instantánea del PIB real y la tasa 
de crecimiento instantánea del factor de deflación de los precios del PIB. 

En términos más generales, la tasa de crecimiento instantánea de un producto es la suma de las tasas de 
crecimiento instantáneas de sus componentes. Esto puede generalizarse al producto de más de dos varia- 
bles. 

Asimismo, si tenemos 


Y=> 34) 


lay lax iaz 
Vor Xor Zai 


(35) 


esto es, gy = gx — gz. En otras palabras, la tasa instantánea de crecimiento de Y es la diferencia entre la tasa 
de crecimiento instantánea de X menos la tasa de crecimiento instantánea de Z. Por tanto, si Y = ingreso per 
cápita, X= PIB y Z= población, la tasa de crecimiento instantánea del ingreso per cápita es igual a la tasa 
de crecimiento del PIB menos la tasa de crecimiento instantánea de la población. 

Ahora, sea Y = X + Z. ¿Qué tasa de crecimiento tiene Y? Sea Y = empleo total, X = obreros empleados 
y Z = empleados administrativos. Como 


In(X+ Z) 4 In X + InY, 
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no es fácil calcular la tasa de crecimiento de Y pero con algunas operaciones algebraicas se demuestra que 


o S (36) 
DIS EA 


S 


Esto es, la tasa de crecimiento de una suma es un promedio ponderado de las tasas de crecimiento de 
sus componentes. En este ejemplo, la tasa de crecimiento del empleo total es un promedio ponderado de las 
tasas de crecimiento del empleo de obreros y empleados administrativos, y sus respectivas ponderaciones 
equivalen a la parte que representa cada componente del empleo total. 


6A.5 Modelo de regresión Box-Cox 


Considere el siguiente modelo de regresión: 
Y? = pı + B2X; + üi Y>0 (37) 


donde A (la letra griega lambda) es un parámetro que puede ser negativo, cero o positivo. Como Y está ele- 
vado a la potencia A, obtendremos varias transformaciones de Y según el valor de A. 

La ecuación (37) se conoce como modelo de regresión Box-Cox, en honor de los estadísticos Box y 
Cox.' Según el valor de A, tenemos los siguientes modelos de regresión, que se muestran en forma tabular: 


Valor de 4 Modelo de regresión 
1 Y; = B1 + B2X; +U; 
2 Y? = Bi +B2Xi + ui 
0.5 VYi = bı + b2Xi + ui 
0 In Y; = B1 + B2X; + ui 

1 
05 = + X: dWh 
Yi B1 Ba i ¡ 
1 
1.0 y =B1+ B2Xi + ui 
I 


Como se aprecia, los modelos lineal y log-lineal son casos especiales de la familia de transformaciones 
Box-Cox. 

Por supuesto, tales transformaciones son aplicables a las variables X. Es interesante notar que cuando 
à es igual a cero, obtenemos la transformación logarítmica de Y La prueba de esto es compleja y es mejor 
dejarla para las referencias. (Los lectores interesados en cálculo tendrán que recordar la regla de 1”Hópital 
[del hospital].) 

Sin embargo, ¿cómo determinamos en realidad el valor correspondiente a A en una situación dada? No 
podemos estimar la ecuación (37) de forma directa, pues esto abarca no sólo los parámetros de regresión ßı 
y f2, sino también A, que entra de manera no lineal. No obstante, se puede demostrar que con el método de 
máxima verosimilitud es posible estimar todos estos parámetros. Existen paquetes de regresión que calculan 
precisamente esto. 

No insistiremos más en este tema porque el procedimiento es un tanto complejo. 

Sin embargo, podemos proceder por el método de ensayo y error. Escoja varios valores de A, transforme 
Y en consecuencia, ejecute la regresión (37) y obtenga la suma de cuadrados de residuos (SCR) de cada 
regresión transformada. Elija el valor de A que dé la SCR mínima.? 


1 G.E.P. Box y D.R. Cox, “An Analysis of Transformations”, Journal of the Royal Statistical Society, B26, 1964, 
pp. 211-243. 

2 Para un análisis accesible, consulte John Neter, Michael Kutner, Christopher Nachtsheim y William Wasser- 
man, Applied Linear Regression Models, 3a. ed., Richard D. Irwin, Chicago, 1996. 


Capítulo 


Análisis de regresión 
múltiple: el problema 
de estimación 


El modelo con dos variables, estudiado con amplitud en los capítulos anteriores, suele ser inade- 
cuado en la práctica. Es el caso del ejemplo consumo-ingreso (ejemplo 3.1), donde se supuso 
implicitamente que sólo el ingreso X se relaciona con el consumo Y. Pero la teoría económica 
rara vez es tan simple, pues, además del ingreso, muchas otras variables probablemente afectan 
el gasto de consumo. Un ejemplo obvio es la riqueza del consumidor. Para citar otro ejemplo, 
es probable que la demanda de un bien dependa no sólo de su propio precio sino también de los 
precios de otros bienes competitivos o complementarios, del ingreso del consumidor, de la con- 
dición social, etc. Por consiguiente, se necesita ampliar el modelo simple de regresión con dos 
variables para considerar modelos con más de dos variables. La adición de variables conduce al 
análisis de los modelos de regresión múltiple, es decir, modelos en los cuales la variable depen- 
diente, o regresada, Y, depende de dos o más variables explicativas, o regresoras. 

El modelo de regresión múltiple más sencillo posible es la regresión de tres variables, con una 
variable dependiente y dos variables explicativas. En este capítulo y en el siguiente estudiaremos 
este modelo. Durante todo el análisis, trataremos con modelos de regresión lineal múltiple, es 
decir, modelos lineales en los parámetros, que pueden ser o no lineales en las variables. 


7.1 Modelo con tres variables: notación y supuestos 


Al generalizar la función de regresión poblacional (FRP) de dos variables (2.4.2), podemos es- 
cribir la FRP de tres variables así: 


Y, = Pı + P2X2 + P3A3¡ + ui (7.1.1) 


donde Y es la variable dependiente, X) y X; las variables explicativas (o regresoras), u es el tér- 
mino de perturbación estocástica, e į la ¡-ésima observación; en caso de que los datos sean series 
de tiempo, el subíndice + denotará la t-ésima observación.' 


1 Para efectos de simetría notacional, la ecuación (7.1.1) se escribe también como 
Y; = pı X1i + P2X2i + B3X3; + Ui 
donde Xı;= 1 para todo i. 
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En la ecuación (7.1.1), $; es el término del intercepto. Como es usual, este término da el efecto 
medio o promedio sobre Y de todas las variables excluidas del modelo, aunque su interpretación 
mecánica sea el valor promedio de Y cuando X) y X; se igualan a cero. Los coeficientes 62 y P3 se 
denominan coeficientes de regresión parcial, y su significado se explicará en breve. 

Continuamos operando dentro del marco del modelo clásico de regresión lineal (MCRL), 
presentado en el capítulo 3. Específicamente, suponemos lo siguiente: 


SUPUESTOS 


1. Modelo de regresión lineal, o lineal en los parámetros. (7.1.2) 


2. Valores fijos de X o valores de X independientes del término de error. En este caso, 
esto significa que se requiere covarianza cero entre u; y cada variable X. 


cov (u;, X2i) = cov (u; X3) = 0 (7.1.3)? 

3. Valor medio de la perturbación u; igual a cero. 
E(ui| X2; X3) = 0 por cada i (7.1.4) 

4. Homoscedasticidad o varianza constante de u;. 
var (u;) = 0? (7.1.5) 


5. No autocorrelación, o correlación serial, entre las perturbaciones. 


cov (u; uj) = 0 Aj (7.1.6) 

6. El número de observaciones n debe ser mayor que el de parámetros por estimar, 
que en el presente caso son 3. (7.1.7) 
7. Debe haber variación en los valores de las variables X. (7.1.8) 


También abordaremos otros dos requisitos. 
8. No debe haber colinealidad exacta entre las variables X. 
No hay relación lineal exacta entre X2 y X3 (7.1.9) 
En la sección 7.7 dedicaremos más tiempo a analizar el supuesto final. 
9. No hay sesgo de especificación. 


El modelo está especificado correctamente. (7.1.10) 


El fundamento de los supuestos (7.1.2) a (7.1.10) es el mismo que se explicó en la sección 3.2. 
El supuesto (7.1.9), que establece la no existencia de una relación lineal exacta entre X? y X3, se 
conoce técnicamente como supuesto de no colinealidad, o de no multicolinealidad cuando hay 
más de una relación lineal exacta. 

Informalmente, la no colinealidad significa que ninguna de las regresoras puede escribirse 
como combinación lineal exacta de las regresoras restantes en el modelo. 

De manera formal, la no colinealidad significa que no existe un conjunto de números A» y Az, 
al menos uno diferente de cero, tales que 


Hrt ira (7.1.11) 


2 Este supuesto se cumple automáticamente si X2 y X3 son no estocásticas y (7.1.4) se mantiene. 
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Si hay dicha relación lineal, se dice que X? y X; son colineales o linealmente dependientes. Por 
otra parte, si (7.1.11) se cumple sólo cuando A2 = 43 = 0, se dice que X y X3, son linealmente 
independientes. 

Así, si 


Xhi = —4X3i (0) Xai + 4X3i =0 (7.1.12) 


las dos variables son linealmente dependientes, y si se incluyen ambas en un modelo de regre- 
sión, tendremos colinealidad perfecta o una relación lineal exacta entre las dos regresoras. 

Aunque consideraremos con más detalle el problema de multicolinealidad en el capitulo 10, 
es fácil captar intuitivamente la lógica del supuesto de no multicolinealidad. Suponga que en 
(7.1.1) Y, X2 y X representan el gasto de consumo, el ingreso y la riqueza del consumidor, res- 
pectivamente. Al postular que el gasto de consumo está relacionado linealmente con el ingreso 
y la riqueza, la teoría económica supone que los dos anteriores pueden tener alguna influencia 
independiente sobre el consumo. De no ser así, no tiene sentido incluir ambas variables, ingreso y 
riqueza, en el modelo. En la situación extrema, si existe una relación lineal exacta entre ingreso 
y riqueza, sólo hay una variable independiente, no dos, y no hay forma de evaluar la influencia 
separada del ingreso y de la riqueza sobre el consumo. Para ver esto claramente, sea X3; = 2X2; 
en la regresión consumo-ingreso-riqueza. Entonces, la regresión (7.1.1) resulta ser 


Y, = bi + B2X2 + B3QX) + u; 
= bi + (p2 + 283) Xi + u; (7.1.13) 
= fı +4Xzi + ui 


donde a = (8, + 263). Es decir, de hecho se tiene una regresión de dos variables y no de tres. Ade- 
más, si se hace la regresión (7.1.13) y se obtiene «, no hay forma de estimar la influencia separada 
de X, (= f2) y X3 (= B3) sobre Y, pues a da la influencia combinada de X, y X; sobre Y. 

En resumen, el supuesto de no multicolinealidad requiere que en la FRP se incluyan solamente 
las variables que no sean funciones lineales exactas de alguna variable del modelo. Aunque anali- 
zaremos este tema con más detalle en el capítulo 10, vale la pena notar un par de puntos aquí: 

Primero, el supuesto de que no hay multicolinealidad pertenece al modelo teórico (es decir, a 
la FRP). En la práctica, cuando se recopilan datos para el análisis empírico, no hay una garantía 
de que no existirán correlaciones entre las regresoras. De hecho, en la mayor parte del trabajo 
aplicado casi es imposible encontrar dos o más variables (económicas) que quizá no estén corre- 
lacionadas en alguna medida, como mostraremos en los ejemplos ilustrativos más adelante en 
este capítulo. Lo que se requiere es que no haya una relación exacta entre las regresoras, como 
en la ecuación (7.1.12). 

En segundo lugar, tenga presente que sólo hablamos de relaciones lineales perfectas entre dos 
o más variables. La multicolinealidad no es válida para relaciones no lineales entre variables. 
Suponga que X3; = X3,. Esto no viola el supuesto de no colinealidad perfecta, en vista de que la 
relación entre las variables es no lineal. 


3 En términos matemáticos, œ = (82 + 283) es una ecuación con dos incógnitas y no hay una forma única de 
estimar £2 y $3 a partir de la œ estimada. 
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7.2 Interpretación de la ecuación de regresión múltiple 


Con los supuestos del modelo de regresión clásico, se cumple que, al tomar la esperanza condi- 
cional de Y en ambos lados de (7.1.1), obtenemos 


E(Y | Xai, X3) = Bi + B2X2; + P3iX3i (7.2.1) 


Expresado en palabras, de (7.2.1) se obtiene la media condicional o el valor esperado de Y 
condicionado a los valores dados o fijos de las variables X) y X3. Por consiguiente, como en 
el caso de dos variables, el análisis de regresión múltiple es el análisis de regresión condicional 
sobre los valores fijos de las variables explicativas, y lo que obtenemos es el valor promedio o la 
media de Y, o la respuesta media de Y a los valores dados de las regresoras X. 


7.3 Significado de los coeficientes de regresión parcial 


Como ya mencionamos, los coeficientes de regresión 2 y $3 se conocen como coeficientes de 
regresión parcial o coeficientes parciales de pendiente. El significado del coeficiente de re- 
gresión parcial es el siguiente: $ mide el cambio en el valor de la media de Y, £(Y), por unidad 
de cambio en X», con X; constante. Expresado de otra forma, proporciona el efecto “directo” o 
“neto” que tiene una unidad de cambio de X) sobre el valor medio de Y, neto de cualquier efecto 
que X; pueda ejercer en la media Y. De igual forma, $3 mide el cambio en el valor medio de Y 
por unidad de cambio en X3, cuando el valor de X se conserva constante.* Es decir, da el efecto 
“directo” o “neto” de una unidad de cambio en X; sobre el valor medio de Y, neto de cualquier 
efecto que X, pudiera tener sobre la media Y.’ 

En realidad, ¿cómo haríamos para conservar constante la influencia de una regresora? Para 
averiguarlo, retomemos el ejemplo de la mortalidad infantil. Recuerde que en ese ejemplo Y = 
mortalidad infantil (MI), X2 = PIB per cápita (PIBPC) y X; = tasa de alfabetización en las mu- 
jeres (TAM). Suponga que deseamos conservar constante la influencia de la TAM. Como TAM 
puede tener algún efecto sobre MI así como sobre PIBPC para cualesquiera datos concretos, 
lo que podemos hacer es eliminar la influencia (lineal) que TAM ejerce tanto en MI como en 
PIBPC, al hacer la regresión de MI sobre TAM y la regresión de PIBPC sobre TAM en forma se- 
parada, y luego buscar los residuos obtenidos de tales regresiones. Con los datos proporcionados 
en la tabla 6.4, obtenemos las siguientes regresiones: 


MI, = 263.8635 — 2.3905 TAM; + îi; 


(7.3.1) 
ee = (12.2249) (0.2133) r? = 0.6695 
donde û;; representa el término residual de esta regresión. 
PIBPC, = -39.3033 + 28.1427 TAM; + ûz; 
2 (7.3.2) 


ee = (734.9526) (12.8211) r? = 0.0721 


donde ûz; representa el término residual de esta regresión. 


4 El lector con conocimientos de cálculo se dará cuenta de inmediato de que £2 y $3 son las derivadas parcia- 
les de E(Y | X2, X3) respecto de X2 y X3. 

5 A propósito, las expresiones mantener constante, estar controlado por, permitir o tomar en cuenta la influencia 
de, corregir la influencia de y eliminar la influencia de son sinónimos y se utilizarán de manera indistinta a lo 
largo de esta obra. 
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Ahora 
ùi: = (MI; — 263.8635 + 2.3905 TAM,) (7.3.3) 


representa la parte de MI que queda después de anular la influencia (lineal) de TAM. De igual 
forma, 


ûz; = (PIBPC; + 39.3033 — 28.1427 TAM;) (7.3.4) 


representa la parte del PIBPC que queda después de eliminar la influencia (lineal) de TAM. 

Por consiguiente, si ahora se hace la regresión de ú;; o ûz;, que están “purificadas” de la in- 
fluencia (lineal) de TAM, ¿no obtendríamos el efecto neto del PIBPC sobre MI? De hecho, así 
sucede (véase el apéndice 7A, sección 74.2). Los resultados de la regresión son los siguientes: 


Ĉi; = —0.0056ñ»; 


(7.3.5) 
ee = (0.0019) r? = 0.1152 


Nota: Esta regresión no tiene el término de intercepto porque el valor medio de los residuos 
MCO ú¡; y 42; son cero (¿por qué?). 

El coeficiente de la pendiente de —0.0056 ahora proporciona el efecto “verdadero” o neto de 
una unidad de cambio en PIBPC sobre MI, o la verdadera pendiente de MI respecto de PIBPC. 
Es decir, proporciona el coeficiente de regresión parcial de MI respecto de PIBPC, £2. 

Quienes deseen determinar los coeficientes de la regresión parcial de MI respecto de TAM 
pueden repetir el procedimiento anterior: primero deben efectuar la regresión de MI sobre PIBPC 
para obtener los residuos de esta regresión (41;), después, la regresión de TAM sobre PIBPC para 
obtener los residuos de esta regresión (ĉ2;), y por último, la regresión ůı; sobre %17;. Estoy seguro 
de que los lectores comprendieron la idea. 

¿Tenemos que llevar a cabo este procedimiento de múltiples pasos siempre que deseemos co- 
nocer el verdadero coeficiente de la regresión parcial? Por fortuna, no, pues el mismo resultado se 
obtiene de forma muy rápida y rutinaria mediante el procedimiento MCO analizado en esta sec- 
ción. El método de varios pasos que acabamos de esbozar tiene sólo fines pedagógicos, a fin de 
exponer el significado del coeficiente de regresión “parcial”. 


7.4. Estimación de MCO y MV de los coeficientes de regresión parcial 


Para estimar los parámetros del modelo de regresión con tres variables (7.1.1) consideraremos 
primero el método de mínimos cuadrados ordinarios (MCO), presentado en el capítulo 3, y luego, 
brevemente, el método de máxima verosimilitud (MV), estudiado en el capítulo 4. 


Estimadores de MCO 


Para encontrar los estimadores de MCO, escribamos primero la función de regresión muestral 
(FRM) correspondiente a la FRP de (7.1.1) de la siguiente manera: 
Y; = ĝi + Br AX + û; (7.4.1) 


donde ĉ; es el término residual, la contraparte muestral del término de perturbación estocástico 
Ui. 
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Como se vio en el capítulo 3, el procedimiento MCO consiste en seleccionar los valores des- 
conocidos de los parámetros de forma que la suma de cuadrados de los residuos (SCR) > û? sea 
lo más pequeña posible. Simbólicamente, 


min Y ú; = me = Êi — Ê2Xzi Bad (7.4.2) 


donde la expresión para la SCR se obtiene por simple manipulación algebraica de (7.4.1). 

El procedimiento más directo para obtener los estimadores que reducen (7.4.2) es diferen- 
ciarla respecto de las incógnitas, igualar a cero las expresiones resultantes y resolverlas al mismo 
tiempo. Como se muestra en el apéndice 7A, sección 7A.1, de este procedimiento se obtienen las 
siguientes ecuaciones normales [comparables con las ecuaciones (3.1.4) y (3.1.5)]: 


y= És ar frXo ar B3X3 (7.4.3) 
NE YX = Bi YX; + Ê NE + B3 Y XX: (7.4.4) 
Y Y Xay =B1 Xit) KM Xi + Bs YX (7.4.5) 


De la ecuación (7.4.3) vemos al instante que 
Êi = Ë — B,Xo— PX; (7.4.6) 


que es el estimador de MCO del intercepto poblacional £1. 

Conforme a la convención de permitir que las letras minúsculas denoten desviaciones de 
las medias muestrales, se derivan las siguientes fórmulas de las ecuaciones normales (7.4.3) a 
(7.4.5): 


E (L rixa (Z5) — y) 0 daa) 
(> 2%) > (E X2¡X3,) 


hs — (E vixz) (Z x3,) al ya) OS Sa (7.48) 
(DE 13) — (212113) 


(7.4.7) 


que dan los estimadores de MCO de los coeficientes de regresión parcial poblacionales, 2 y 3, 
respectivamente. 

A propósito, observe lo siguiente: 1) Las ecuaciones (7.4.7) y (7.4.8) son simétricas por natu- 
raleza, porque una se obtiene de la otra mediante el cambio de papeles de X2 y X3; 2) los deno- 
minadores en estas dos ecuaciones son idénticos; y 3) el caso de tres variables es una extensión 
natural del caso de dos variables. 


é Este estimador es igual al de (7.3.5), como se muestra en el apéndice 7A, sección 7A.2. 
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Varianzas y errores estándar de los estimadores de MCO 


Después de obtener los estimadores de MCO de los coeficientes de regresión parcial derivamos 
las varianzas y los errores estándar de los estimadores como se indica en el apéndice 3A.3. Igual 
que en el caso de dos variables, se necesitan los errores estándar para dos fines principales: es- 
tablecer intervalos de confianza y probar hipótesis estadísticas. Las fórmulas pertinentes son las 
siguientes:” 


1 IA + YN x2 =D 28 Pa (7.4.9) 


o e 
var (£1) E D D EO 


ee (1) = +y var (ĝi) (7.4.10) 


D o 


var (2) = 5 
E (2) 5 oa) 


(7.4.11) 


o, en forma equivalente, 


A 0? 
vV) = S 


== 7.4.12 
2 xz; (1 = 133) | i 


donde 723 es el coeficiente de correlación muestral entre X2 y X3, como se define en el capítulo 3.8 


ee (ĝ») = +/var(ĝ) (7.4.13) 


2 
var (s) == 2a z0? (7.4.14) 
E x3,) 63 x3;) = (> X2¡X3;) 
o, en forma equivalente, 
A o2 
var (63) = 3 (7.4.15) 


(1 -= r33) 


ee(B3) = +y/var(B3) (7.4.16) 


—r330? 


(1 = r33)y E riy Ex; 


En todas estas fórmulas, o? es la varianza (homoscedástica) de las perturbaciones poblacionales 
Ui. 


cov(Ba, $3) = 


(7.4.17) 


Según el argumento del apéndice 3A, sección 3A.5, el lector puede verificar que un estimador 
insesgado de o? está dado por 


AZ (7.4.18) 


7 Las derivaciones de estas fórmulas son más sencillas con notación matricial. Los lectores con mayores cono- 
cimientos pueden consultar el apéndice C. 


8 Con la definición de r dada en el capítulo 3, tenemos 
2 
2 (© x2ix3i) 


r23 = 


3 y) 2 
2X3 A 
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Observe la similitud entre este estimador de o? y su correspondiente en el caso de dos varia- 
bles [5? = (Y û?)/(n — 2)]. Los grados de libertad son ahora (n — 3) porque, para calcular Y” û?, 
se deben estimar primero £1, 2 y 3, los cuales consumen 3 gl. (El argumento es muy general. 
Así, en el caso de cuatro variables, los gl serán n — 4.) 

El estimador ô? se calcula de (7.4.18) una vez que se dispone de los residuos, pero también 
se obtiene, más rápido, con la siguiente relación (para una prueba, véase el apéndice 7A, sección 
74.3): 


Ni = Y y? Êa Y yix — Ês X pis (7.4.19) 


que es la contraparte de tres variables de la relación dada en (3.3.6). 


Propiedades de los estimadores de MCO 


Las propiedades de los estimadores de MCO del modelo de regresión múltiple son similares a las 
del modelo con dos variables. Especificamente: 


1. La línea (superficie) de regresión de tres variables pasa a través de las medias de Y, X» y 
X3, lo cual se hace evidente en (7.4.3) [compárese con la ecuación (3.1.7) del modelo con dos 
variables]. Esta propiedad generalmente se mantiene. Así, en el modelo de regresión lineal con 
k variables [una regresada y (k — 1) regresoras], 


Y; = pı + BrXo + P3X3i +-+- + BrX ti + ui (7.4.20) 
se tiene que 


Êi = F = bX = py = m Bi Xg (7.4.21) 


2. El valor medio de Y; estimado Y; ( = Î;) es igual al valor medio de Y; observado, lo cual es 
fácil de demostrar: 
Y, = ĝi + Br Xi + b; X3; 
= (F — ÊX — f3X3) + 2X2: + ÊsXsi (¿Por qué?) 
= Y + Ê (Xa — X2) + ÊX: — Ž) 
= Y + Baras + ĝsx3i 


(7.4.22) 


donde, como es usual, las letras minúsculas indican los valores de las variables expresadas como 
desviaciones de sus medias respectivas. 

Al sumar en ambos lados E (7.4.22) sobre los valores muestrales y dividir entre el tamaño de 
la muestra n, se tiene Y = Y. (Nota: Y xa; = Y x3; = 0. ¿Por qué?) Observe que, en virtud 
de (7.4.22), podemos escribir 


Ĵi = Boro + baxo; (7.4.23) 


donde y; = (Fi 
Por consiguiente, la FRM (7.4.1) se expresa en forma de desviaciones como 


Yi = fi + ùi = Box; F ĝÊsx3i +û; (7.4.24) 


3. $ ù; = 2 = 0, lo cual se verifica de (7.4.24). [Sugerencia: Sume ambos lados de (7.4.24) 
sobre los valores muestrales. ] 


4. Los residuos ĉ; no están correlacionados con Xz; y A5;, es decir, X û; Xz; = X 0¡X3; =0 
(véase la prueba en el apéndice 74.1). 
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5. Los residuos 11; no están correlacionados con Y es decir, )_ ù; Y = 0, ¿Por qué? [Sugeren- 
cia: Multiplique ambos lados de (7.4.23) por ù; y sume sobre los valores muestrales.] 


6. De (7.4.12) y (7.4.15) es evidente que, a medida que 723, el coeficiente de correlación entre 
Xə y X3, se acerca a 1, las varianzas de b y Ba aumentan para los valores dados de 0? y Y Xe o 
Y x3. En el límite, cuando r2; = 1 (es decir, la colinealidad perfecta), estas varianzas se hacen 
infinitas. En el capítulo 10 analizaremos a fondo las implicaciones de esto, pero ya el lector puede 
intuir que, a medida que aumenta r23, resulta cada vez más dificil conocer los valores verdaderos 
de £2 y 3. [Veremos más detalles en el siguiente capítulo, pero mientras, consulte la ecuación 
(7.1.13).] 


7. También es claro, de (7.4.12) y (7.4.15), que, para valores dados de r23 y X$- x2; o X- x3, las 
varianzas de los estimadores de MCO son directamente proporcionales a o°; es decir, aumentan 
a medida que lo hace o. En forma similar, para valores dados de o? y r23, la varianza de ĝ es in- 
versamente proporcional a >> x2; es decir, entre mayor sea la variación de los valores muestrales 
de X2, menor será la varianza de f» y, por consiguiente, $2 se estima en forma más precisa. Una 
afirmación similar vale respecto de la varianza de £3. 


8. Con los supuestos del modelo clásico de regresión lineal enunciados en la sección 7.1 se 
demuestra que los estimadores de MCO de los coeficientes de regresión parcial no solamente 
son lineales e insesgados, sino que también tienen varianza mínima dentro de la clase de todos 
los estimadores lineales insesgados. En resumen, son MELI. Dicho de otra forma, satisfacen 
el teorema de Gauss-Markov. (La prueba es similar al caso de dos variables demostrado en el 
apéndice 3A, sección 3A.6, y se presentará en forma más compacta con notación matricial en 
el apéndice C). 


Estimadores de máxima verosimilitud 

En el capítulo 4 observamos que, según el supuesto de que las perturbaciones poblacionales, 
uj, estén normalmente distribuidas con media cero y varianza o? constante, los estimadores de 
máxima verosimilitud (MV) y los estimadores de MCO de los coeficientes de regresión del mo- 
delo con dos variables son idénticos. Esta igualdad se extiende a modelos con cualquier número de 
variables. (Para una demostración, véase el apéndice 7A, sección 7A.4.) Sin embargo, esto no 
vale para el estimador de o?. Puede demostrarse que el estimador de MV de o? es Y ù?/n sin 
importar el número de variables en el modelo, mientras que el estimador de MCO de o? es 
Y û?/(n — 2) en el caso de dos variables, ) ù? /(n — 3) en el caso de tres variables y X$- û?/(n — k) 
en el caso del modelo de k variables (7.4.20). En resumen, el estimador de MCO de o? tiene en 
cuenta el número de grados de libertad, mientras que el estimador MV no lo hace. Por supuesto, 
si n es grande, los estimadores de MV y MCO de o? tienden a estar cerca uno del otro. (¿Por 
qué?) 


7.5 El coeficiente múltiple de determinación R? 


y el coeficiente múltiple de correlación R 


En el caso de dos variables vimos que r?, definido en (3.5.5), mide la bondad de ajuste de la 
ecuación de regresión; es decir, da la proporción o porcentaje de la variación total en la variable 
dependiente Y explicada por la variable (única) explicativa X. Esta notación de r? se extiende fá- 
cilmente a los modelos de regresión con más de dos variables. Así, en el modelo de tres variables 
buscamos conocer la proporción de la variación en Y explicada por las variables X2 y X; con- 
juntamente. La medida que da esta información se conoce como coeficiente de determinación 


múltiple, y se denota por R?; conceptualmente se asemeja a 7?. 
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Para obtener R?, podemos seguir el procedimiento para obtener r° descrito en la sección 3.5. 
Recuerde que 


Y; = Êi + Ê2Xzi + B3X3; + ûi 
i (7.5.1) 
= Y, +4; 


donde Y, es el valor estimado de Y; a partir de la línea de regresión ajustada y es un estimador de 
la verdadera E(Y; | X;, A3;). Al sustituir las letras mayúsculas por minúsculas para indicar desvia- 
ciones de sus medias, la ecuación (7.5.1) se escribe como 


Yi = 2x2; T ĝsx3i +û; 
(7.5.2) 


= Yi + 4; 


Elevamos al cuadrado (7.5.2) en ambos lados y sumamos sobre los valores muestrales para ob- 
tener 


DA O 0420 iâ 


(7.5.3) 
= 5+9 â (¿Por qué?) 


En palabras, la ecuación (7.5.3) afirma que la suma de cuadrados total (STC) es igual a la suma 
de cuadrados explicada (SCE) + la suma de cuadrados de residuos (SCR). Ahora, sustituimos el 
equivalente de ` 2? dado en la ecuación (7.4.19) y obtenemos 


YN = ADA Y yixas - Ê; Y yx; 


la cual, al reordenar términos, da 


SCE = Y 97 = ĝo Y > yixa + Ês X yixsi (7.5.4) 
Ahora, por definición, 
2  SCE 
SCT 055 
E ba Y” yiXz + bs Y yix = 
p Ny 


[Compare (7.5.5) con (3.5.6).] 

Como las cantidades consideradas en (7.5.5) suelen calcularse de forma rutinaria, R? se calcu- 
la sin problemas. Observe que R?, al igual que r?°, se encuentra entre 0 y 1. Si es 1, la línea de 
regresión ajustada explica 100% de la variación en Y. Por otra parte, si es 0, el modelo no explica 
nada de la variación en Y. Sin embargo, por lo general R? se encuentra entre estos dos valores 
extremos. Se dice que el ajuste del modelo es “mejor” entre más cerca esté R? de 1. 


? Observe que R? también se calcula de la siguiente manera: 


Raq RSL] ne (n= 3)6? 
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Recuerde que, en el caso de dos variables, definimos r como el coeficiente de correlación e 
indicamos que mide el grado de asociación (lineal) entre las dos variables. El análogo de r para 
tres o más variables es el coeficiente de correlación múltiple, denotado por R, el cual es una 
medida del grado de asociación entre Y y todas las variables explicativas en conjunto. Aunque 
r puede ser positivo o negativo, R siempre se considera positivo. En la práctica, sin embargo, R 
tiene poca importancia. La medida de mayor significado es R?. 

Antes de continuar, establezcamos la siguiente relación entre R? y la varianza de un coeficiente 
de regresión parcial en el modelo de regresión múltiple con k variables dado en (7.4.20): 


a 2 1 
var (;) = sE (==) (7.5.6) 
"j j 


donde Ê; es el coeficiente de regresión parcial de la regresora X; y R? es el R? en la regresión de 
X; sobre las (k — 2) regresoras restantes. [Nota: En el modelo de regresión con k variables hay 
(k — 1) regresoras]. Aunque la utilidad de la ecuación (7.5.6) se verá en el capítulo 10, sobre 
multicolinealidad, observe que esta ecuación es sólo una extensión de la fórmula dada en (7.4.12) 
o (7.4.15) para el modelo de regresión con tres variables, una regresada y dos regresoras. 


7.6 Un ejemplo ilustrativo 


EJEMPLO 7.1 
Mortalidad infantil 
en relación con el 
PIB per cápita y la 
tasa de alfabetiza- 
ción de las mujeres 


En el capítulo 6 consideramos el comportamiento de la mortalidad infantil (MI) en relación con 
el PIB per cápita (PIBPC). Vimos que el PIBPC ejerce un impacto negativo sobre la MI, como era 
de esperarse. Ahora se presenta el alfabetismo femenino medido por la tasa de alfabetización de 
las mujeres (TAM). A priori, se espera que la TAM también ejerza un impacto negativo en la MI. 
Ahora, cuando se introducen ambas variables en el modelo, se requiere eliminar la influencia 
neta de cada regresora. Es decir, necesitamos estimar los coeficientes de regresión (parcial) de 
cada regresora. Por tanto, el modelo es: 


Ml; = Bi+ B2PIBPC; + B3TAM; + u; (7.6.1) 


Los datos necesarios se proporcionan en la tabla 6.4. Tenga en cuenta que la MI es el número de 
muertes de niños menores de 5 años por cada 1 000 nacidos vivos, el PIBPC es el PIB per cápita 
en 1980 y la TAM se mide en porcentaje. La muestra se realizó en 64 países. 

Con el paquete estadístico EViewsé se obtienen los siguientes resultados: 


MI; = 263.6416 — 0.0056 PIBPC;— 2.2316 TAM, 


ee = (11.5932) (0.0019) (0.2099) R2= 0.7077 (7.6.2) 


R? = 0.6981* 


donde las cifras en paréntesis son los errores estándar estimados. Antes de interpretar esta regre- 
sión, observe el coeficiente parcial de la pendiente del PIBPC, a saber, —0.0056. ¿No es preci- 
samente el mismo que obtuvimos del procedimiento en tres pasos de la sección anterior [véase 
la ecuación (7.3.5)]? ¿Esto debe sorprender? Y no nada más eso, sino que también los dos 
errores estándar son justamente los mismos, lo cual de nuevo no debe causar sorpresa alguna. 
Hicimos eso mismo pero sin el engorroso procedimiento de tres pasos. 


* Al respecto, véase la sección 7.8. 
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Ahora interpretemos estos coeficientes de regresión: —0.0056 es el coeficiente de regresión 
parcial del PIBPC e indica que, si se mantiene constante la influencia de la TAM, conforme el 
PIBPC se incrementa, por ejemplo en un dólar en promedio, la mortalidad infantil disminuye 
en 0.0056 unidades. Para interpretar esto desde el punto de vista económico, si el PIB per 
cápita se incrementara 1 000 dólares, en promedio, el número de muertes de niños menores 
de 5 años se reduciría a 5.6 por cada 1 000 nacimientos vivos. El coeficiente —2.2316 señala 
que si la influencia del PIBPC se mantiene constante, el número de muertes de niños menores 
de 5 años disminuiría, en promedio, 2.23 por cada 1 000 nacimientos vivos, si la tasa de alfa- 
betización en las mujeres subiera un punto porcentual. El valor del intercepto de alrededor de 
263, si se interpretara de una forma mecanicista, significaría que si los valores del PIBPC y de la 
TAM fuesen cero, la mortalidad infantil promedio sería de más o menos 263 muertes por cada 
1 000 nacimientos vivos. Por supuesto, tal interpretación debe tomarse con mucho cuidado. 
Cualquiera puede inferir que si dos regresoras tuviesen un valor cero, la mortalidad infantil sería 
muy alta, lo cual tiene sentido. El valor de R? de casi 0.71 significa que casi 71% de la variación 
en la mortalidad infantil se explica mediante el PIBPC y la TAM, lo cual es un gran porcentaje 
si se considera que el valor máximo que puede tener R? es 1. De todo lo dicho hasta aquí, los 
resultados de la regresión tienen sentido. 

¿Y qué pasa con la importancia de los coeficientes estimados? Abordaremos este tema en el 
capítulo 8. Como verá, dicho capítulo es una extensión del capítulo 5, que aborda el modelo 
de dos variables. También verá que hay algunas diferencias importantes, en cuanto a inferencia 
estadística (es decir, pruebas de hipótesis), entre el modelo de regresión con dos variables y el 
multivariado. 


Regresión sobre variables estandarizadas 


En el capítulo anterior presentamos el tema de la regresión sobre variables estandarizadas y afir- 
mamos que el análisis se podía extender a las regresiones multivariadas. Recuerde que una varia- 
ble es estandarizada o se expresa en unidades de desviación estándar si se expresa en términos de 
desviación de su media y se dividió entre su desviación estándar. 

Para el ejemplo de la mortalidad infantil, los resultados son los siguientes: 


MI' = — 0.2026 PIBPC* — 0.7639 TAM! (7.6.3) 
ee= (0.0713) (0.0713) — r?=0.7077 


Nota: Las variables con asterisco están estandarizadas. También observe que no existe término de 
intercepto en el modelo por las razones que ya analizamos en el capítulo anterior. 

Como se aprecia en esta regresión, si se conserva constante la TAM, un incremento igual a 
una desviación estándar en el PIBPC propicia, en promedio, una disminución de 0.2026 desvia- 
ción estándar en la MI. De manera semejante, si se conserva al PIBPC constante, un incremento 
igual a una desviación estándar en la TAM, en promedio, causará una disminución de 0.7639 de 
desviación estándar en la MI. En términos relativos, el alfabetismo en las mujeres tiene un mayor 
impacto en la mortalidad infantil que el PIB per cápita. Aquí se advierte la ventaja de utilizar 
variables estandarizadas, pues la estandarización hace que todas las variables tengan una medida 
común, en vista de que todas las variables estandarizadas tienen medias iguales a cero y varianzas 
unitarias. 


Efecto sobre la variable dependiente de un cambio 

unitario en más de una regresora 

Antes de continuar, suponga que deseamos averiguar qué pasaría con la tasa de mortalidad infan- 
til si el PIBPC y la TAM se incrementaran de manera simultánea. Suponga que el PIB per cápita 
aumenta un dólar y, al mismo tiempo, la tasa de alfabetización de las mujeres aumenta un punto 
porcentual. ¿Cuál sería el efecto de este cambio simultáneo en la tasa de mortalidad infantil? 
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Para averiguarlo, sólo hay que multiplicar los coeficientes del PIBPC y la TAM por los cambios 
propuestos y sumar los términos resultantes. En el ejemplo, esto da: 


—0.0056(1) — 2.2316(1) = 2.2372 


Es decir, como resultado de este cambio simultáneo en el PIBPC y la TAM, el número de muertes 
de niños menores de 5 años disminuiría en casi 2,24 muertes. 

En términos más generales, si deseamos conocer el efecto total sobre la variable dependiente 
de un cambio unitario en más de una regresora, todo lo que hay que hacer es multiplicar los co- 
eficientes de dichas regresoras por los cambios propuestos y sumar los productos. Observe que el 
término del intercepto no interviene en estos cálculos. (¿Por qué?) 


7.7 Regresión simple en el contexto de regresión múltiple: 


introducción al sesgo de especificación 


El supuesto (7.1.10) del MCRL plantea que el modelo de regresión del análisis está “bien” espe- 
cificado; es decir, no hay sesgo o error de especificación (véase algunos comentarios introducto- 
rios en el capítulo 3). Aunque analizaremos con más detalle el tema del análisis de especificación 
en el capítulo 13, el ejemplo ilustrativo de la sección anterior da una oportunidad no sólo para 
entender la importancia del supuesto (7.1.10), sino también para aclarar de manera adicional el 
significado del coeficiente de regresión parcial y presentar una introducción formal al tema del 
sesgo de especificación. 

Suponga que (7.6.1) es el modelo “verdadero” que explica el comportamiento de la mortalidad 
infantil en relación con el PIB per cápita y la tasa de alfabetización de las mujeres (TAM). Tam- 
bién suponga que se hace caso omiso de la TAM y que se estima la siguiente regresión simple: 


Y, =01 +0X + Ui (7.7.1) 


donde Y = MI y X, = PIBPC. 

Como (7.6.1) es el verdadero modelo, al estimar (7.7.1) se cometería un error de especifica- 
ción, el cual consiste en omitir la variable X3, la tasa de alfabetización de las mujeres. Observe 
que usamos diferentes símbolos para los parámetros (las alfas) en (7.7.1) para distinguirlas de los 
parámetros verdaderos (las betas) dadas en (7.6.1). 

Ahora, ¿2 proporcionará un estimado insesgado del verdadero impacto de PIBPC, dado por 
b2 en el modelo (7.6.1)? En otras palabras, ¿E(G7) = f2, donde ú es el valor estimado de a? Es 
decir, ¿el coeficiente del PIBPC en (7.7.1) suministra una estimación insesgada del verdadero im- 
pacto del PIBPC sobre la MI, si sabemos que se omitió la variable X3 (TAM) del modelo? Como 
se puede sospechar, en general å no será un estimador insesgado del verdadero B». Para tener 
una ligera idea del sesgo, hagamos la regresión (7.7.1), la cual da los siguientes resultados: 


TM; = 157.4244 — 0.0114 PIBPC, 


(7.7.2) 
ee= (9.8455) (0.0032)  r?=0.1662 


Observe varias cosas respecto de esta regresión en comparación con la regresión múltiple 
“verdadera” (7.6.1): 


1. En términos absolutos (es decir, omitiendo el signo), el coeficiente del PIBPC se incrementó 
de 0.0056 a 0.0114, casi el doble. 
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2. Los errores estándar son diferentes. 


3. Los valores del intercepto son distintos. 


2 


4. Los valores r^ son muy distintos, aunque, por lo general, conforme aumenta el número de 
2 


regresoras en el modelo, se incrementan los valores r^. 


Ahora suponga que se hace la regresión de la mortalidad infantil respecto de la tasa de alfabe- 
tismo en las mujeres sin tener en cuenta la influencia del PIBPC. Se obtiene lo siguiente: 


TM, = 263.8635 — 2.3905 TAM; 


(7.7.3) 
ee= (21.2249) (0.2133) r? = 0.6696 


De nuevo, si compara los resultados de esta regresión (mal especificada) con la regresión 
múltiple “verdadera”, verá que son distintos, aunque las diferencias en este caso no resultan tan 
notables como en la regresión (7.7.2). 

Lo importante es estar consciente de que puede haber serias consecuencias si se elige mal un 
modelo. Analizaremos con más detalle este punto en el capítulo 13, sobre los errores de especi- 
ficación. 


7.8 R? y R?” ajustada 


Una propiedad importante de R? es que es una función no decreciente del número de variables 
explicativas o de regresoras presentes en el modelo; a medida que aumenta el número de regre- 
soras, R? aumenta casi invariablemente y nunca disminuye. Planteado de otra forma, una variable 
adicional X no reduce R?. Compare, por ejemplo, la regresión (7.7.2) o la (7.7.3) con la (7.6.2). 
Para ver esto, recuerde la definición del coeficiente de determinación: 


ai (7.8.1) 


Ahora, » y? es independiente del número de variables X en el modelo porque es sólo 
Y (Y — Y ?. SCR, Y 12, sin embargo, depende del número de regresoras presentes en el modelo. 
Por intuición, es claro que, a medida que aumenta el número de variables X, es más probable que 
disminuya » ù? (al menos, que no aumente); por tanto, R?, como se definió en (7.8.1), aumenta. 
En vista de esto, al comparar dos modelos de regresión con la misma variable dependiente pero 
un número diferente de variables X, se debe tener mucho cuidado al escoger el modelo con la R? 
más alta. 

Para comparar dos términos R? se debe tener en cuenta el número de variables X presentes en 
el modelo. Esto se verifica con facilidad si consideramos un coeficiente de determinación alterno, 
que es el siguiente: 


1 20/00 


> 7.8.2 
e (52) 
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donde k = el número de parámetros en el modelo incluyendo el término de intercepto. (En la 
regresión con tres variables, k = 3. ¿Por qué?) R? definida así se conoce como R? ajustada, 
designada por R?. El término ajustado significa ajustado por los gl asociados a las sumas de cua- 
drados que se consideran en (7.8.1): $ û? tiene n — k gl en un modelo con k parámetros, el cual 
incluye el término del intercepto y X- ù? tiene n — 1 gl. (¿Por qué?) Para el caso de tres variables, 
sabemos que X` ù? tiene n — 3 gl. 

La ecuación (7.8.2) también se escribe como 


R=1-> (7.8.3) 


ES y ; y , 2 3 
donde ô? es la varianza residual, un estimador insesgado de la verdadera o°, y S7 es la varianza 
muestral de Y. _ 

Es fácil ver que el R? y el R? están relacionados porque, al incluir (7.8.1) en (7.8.2), obte- 
nemos 


R?=1-(1— R3 


(7.8.4) 


n=1 
n 


=k 


Por la ecuación (7.8.4) de inmediato se comprende que 1) para k > 1, R? < R?, lo cual implica 
que, a medida que aumenta el número de variables X, R? ajustada aumenta menos que R? no ajus- 
tada; y que 2) R? puede ser negativa, aunque R? es necesariamente no negativa.!% En caso de que 
R? resulte ser negativa en una aplicación, su valor se toma como cero. 

¿Cuál R? debe utilizarse en la práctica? Como anota Theil: 


ag 52 $ s E 
...es una buena costumbre utilizar R? en lugar de R? porque R? tiende a dar una imagen demasiado 
optimista del ajuste de la regresión, en particular cuando el número de variables explicativas no es 
muy pequeño comparado con el de observaciones.'' 


Pero no todos comparten la opinión de Theil, pues no ofrece una justificación teórica general para 
la “superioridad” de R?. Por ejemplo, Goldberger argumenta que la siguiente R?, denominada R? 
modificada, servirá igual.!? 


R? modificada = (1 — k/m)R? (7.8.5) 


Su sugerencia es informar sobre R?, n y k, y dejar que el lector elija la forma de ajustar R? con- 
siderando n y k. 


10 Observe, sin embargo, que si R?=1, R? = R? = 1. Cuando R?=0, R? = (1 — k)/(n— k), en cuyo caso 
R? es negativa si k > 1. 
11 Henri Theil, Introduction to Econometrics, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1978, p. 135. 


12 Arthur S. Goldberger, A Course in Econometrics, Harvard University Press, Cambridge, Massachusetts, 
1991, p. 178. Para un punto de vista más crítico de R?, véase S. Cameron, “Why is the R Squared Adjusted 
Reported?”, Journal of Quantitative Economics, vol. 9, núm. 1, enero de 1993, pp. 183-186. Argumenta que 
“[R?] NO es un estadístico de prueba y parece que no hay una justificación intuitiva clara para usarlo como 
estadístico descriptivo. Finalmente, debe quedar claro que no es una herramienta eficaz para la prevención 
de la búsqueda exhaustiva de datos” (p. 186). 
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A pesar de esta sugerencia, es la R? ajustada, como aparece en (7.8.4), la que se utiliza en la 
mayoría de los paquetes estadísticos junto con R? convencional. Se aconseja al lector tratar R? 
como cualquier otro estadístico de resumen. 

A propósito, para la regresión sobre la mortalidad infantil (7.6.2), el lector debe verificar que 
R? es 0.6981, pero sin olvidar que en este ejemplo (n — 1) = 63 y que (n — k) = 60. Como era de 
esperarse, R? de 0.6981 es menor que R? de 0.7077. 

Además de R? y R? ajustada como medidas de bondad de ajuste, a menudo se utilizan otros 
criterios para juzgar la bondad de un modelo de regresión. Dos de estos son el criterio de infor- 
mación de Akaike y el criterio de predicción de Amemiya, con los cuales se escogen modelos 
que compiten. Analizaremos estos criterios cuando veamos el problema de selección de mode- 
los en mayor detalle en un capítulo posterior (el 13). 


Comparación de dos valores de R? 


Es de crucial importancia señalar que, al comparar dos modelos con base en el coeficiente de 
determinación, ajustado o no, el tamaño de la muestra n y la variable dependiente deben ser los 
mismos, las variables explicativas pueden adoptar cualquier forma. Así, para los modelos 


ln Y = 1 + PX; + P3X3 + ui (7.8.6) 
Y, =01 +09 X7 + &3X3i + ui (7.8.7) 


no pueden compararse los términos R? calculados. La razón es la siguiente: por definición, R? 
mide la proporción de la variación en la variable dependiente explicada por la(s) variable(s) 
explicativa(s). Por consiguiente, en (7.8.6), el R? mide la proporción de la variación en ln Y ex- 
plicada por X y X3, mientras que en (7.8.7), mide la proporción de la variación en Y, y las dos 
no son la misma variable: Como vimos en el capítulo 6, un cambio en ln Y da un cambio relativo 
o proporcional en Y, mientras que un cambio en Y da un cambio absoluto. Por consiguiente, 
var Y, /var Y; no es igual a var (n Y;) /var (In Y;); es decir, los dos coeficientes de determinación 
no son lo mismo. ! 

Entonces, ¿cómo comparar las R? de los dos modelos cuando la regresada no está en la misma 
forma? Para responder, consideremos primero un ejemplo numérico. 


13 De la definición de R?, sabemos que 


1 — R2 SCR ya 
TSS YY- Y} 
para el modelo lineal y 
p ir 


Yin Y; — In Y)? 


para el modelo log. Como los denominadores en el lado derecho de estas expresiones son diferentes, no 
podemos comparar los dos términos R? directamente. 

Como se muestra en el ejemplo 7.2, para la especificación lineal, SCR = 0.1491 (la suma de cuadrados 
de residuos del consumo de café), y para la especificación log-lineal, SCR = 0.0226 (la suma de cuadrados de 
residuos del logaritmo del consumo de café). Estos residuos son de diferentes órdenes de magnitud y por 
tanto no son directamente comparables. 
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EJEMPLO 7.2 
Consumo de café 
en Estados Unidos, 
1970-1980 


TABLA 7.1 

Consumo de café en 
Estados Unidos (Y) 
respecto del precio pro- 
medio real al menudeo 
(X),* 1970-1980 


Fuente: Los datos de Y provie- 
nen del Summary of National 
Coffee Drinking Study, Data 
Group, Elkins Park, Pensilva- 
nia, 1981, y los datos sobre Y 
nominal (es decir, X en precios 
corrientes), de Nielsen Food 
Index, A. C. Nielsen, Nueva 
York, 1981. 

El autor está en deuda con 
Scott E. Sandberg por la recopi- 
lación de los datos. 


Considere los datos de la tabla 7.1, los cuales se refieren al consumo de tazas de café por día 
(Y) y el precio al menudeo del café (X) en Estados Unidos de 1970 a 1980. Al aplicar MCO a los 
datos se obtienen los siguientes resultados de la regresión: 


Y,= 2.6911 = 0.4795X; 
ee=(0.1216) (0.1140) 


(7.8.8) 
SCR = 0.1491; r? = 0.6628 


Los resultados tienen sentido en el contexto económico: conforme se incrementa el precio del 
café, en promedio, su consumo disminuye casi media taza al día. El valor r2 de más o menos 
0.66 indica que el precio del café explica casi 66% de la variación en el consumo del café. El 
lector puede verificar con facilidad que la pendiente del coeficiente es estadísticamente signifi- 
cativa. 

A partir de los mismos datos, el siguiente modelo de doble logaritmo, o elasticidad constante, 
se estima: 


ÍnY,= 0.7774 — 0.2530 In X; 


ee = (0.0152) (0.0494) (7.8.9) 


SCR = 0.0226; r? = 0.7448 


Como es un modelo de doble logaritmo, el coeficiente de la pendiente proporciona un estimado 
directo del coeficiente de elasticidad del precio. En el ejemplo presente, indica que si el precio 
del café por libra se incrementa 1%, en promedio, su consumo diario disminuye casi 0.25%. 
Recuerde que, en el modelo lineal (7.8.8), el coeficiente de la pendiente sólo señala la tasa de 
cambio del consumo del café respecto del precio. (¿Cómo estimará la elasticidad-precio en el 
modelo lineal?) El valor r? de casi 0.74 significa que 74% de la variación en el logaritmo de la 
demanda de café se explica por la variación en el logaritmo del precio del café. 

Como el valor r? (0.6628) del modelo lineal es menor que el valor 1? de 0.7448 del modelo 
lineal logarítmico, se presenta la tentación de elegir este último modelo debido al alto valor de 
r?. Sin embargo, por las razones expresadas, no es posible hacerlo así. No obstante, si desea 
comparar ambos valores r?, puede proceder de la siguiente manera: 


Y 
Tazas diarias X, 
Año por persona $ por libra 
1970 257 0.77 
1971 2.50 0.74 
1972 235 0.72 
1973 2.30 0.73 
1974 225 0.76 
1975 2.20 0.75 
1976 2.11 1.08 
1977 1.94 1.81 
1978 1.97 1159 
1979 2.06 1.20 
1980 2.02 1.17 


*Nota: El precio nominal se dividió entre el IPC para alimentos y bebidas, 1967 = 100. 


TABLA 7.2 

Datos básicos para 
comparar dos valores 
de R? 
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1. Obtenga in Y: de (7.8.9) para cada observación; es decir, encuentre el valor estimado de cada 
observación a partir de este modelo. Tome el antilogaritmo de esos valores y después calcule 
r? entre dichos valores del antilogaritmo y la verdadera Y, de la manera señalada por la ecua- 
ción (3.5.14). Este valor r? es comparable con el valor r? del modelo lineal (7.8.8). 

2. Otra forma es suponer que todos los valores Y son positivos, en cuyo caso calcule los loga- 
ritmos de los valores Y, In Y. Obtenga los valores estimados Y, Y;, del modelo lineal (7.8.8), 
calcule los logaritmos de dichos valores estimados Y (es decir, In Y¿) y calcule la r? entre (In Y) 
y (In Ŷ) como en la ecuación (3.5.14). Este valor r? es comparable con el valor r? obtenido 
mediante (7.8.9). 


Para el ejemplo del café, en la tabla 7.2 se presentan los datos originales necesarios para 
calcular las r? comparables. A fin de comparar el valor r? del modelo lineal (7.8.8) con el de 
(7.8.9), primero obtenemos el logaritmo de (Y,) [dado en la columna (6) de la tabla 7.2], luego 
calculamos el logaritmo de los valores reales Y [dados en la columna (5) de la tabla] y por últi- 
mo calculamos r? entre estos dos conjuntos de valores mediante la ecuación (3.5.14). El resul- 
tado es un valor r? de 0.6779, el cual ahora se puede comparar con el valor r? de 0.7448 del 
modelo log-lineal. La diferencia entre ambos valores r? es aproximadamente 0.07. 

Por otra parte, si deseamos comparar el valor r? del modelo log-lineal con el obtenido del 
modelo lineal, estimamos In Y; para cada observación de (7.8.9) [dadas en la columna (3) de la 
tabla], obtenemos sus valores antilog [dados en la columna (4) de la tabla] y por último cal- 
culamos r? entre estos valores antilog y los valores reales de Y observados mediante la fórmula 
(3.5.14). Esto da a r? un valor de 0.7187, el cual es un poco superior al valor obtenido del mo- 
delo lineal (7.8.8) de 0.6628. 

Con cualquier método, parece que el modelo log-lineal ofrece un ajuste ligeramente mejor. 


Antilog de 
Y; Y, nY; nY; In Y; In (o 
Año (1) (2) 3) (4) (5) (6) 


1970 2.57  2.321887  0.843555 2.324616 0.943906 0.842380 
1971 2.50 2.336272  0.853611 2.348111 0.916291 0.848557 
1972 2.35 2.345863 0.860544 2.364447 0.854415 0.852653 
1973 2.30 2.341068 0.857054 2.356209 0.832909 0.850607 
1974 2.25 2.326682 0.846863 2.332318 0.810930 0.844443 
1975 2.20 2.331477 0.850214 2.340149 0.788457 0.846502 
1976 2.11 2.173233 0.757943 2.133882 0.746688 0.776216 
1977 1.94 1.823176  0.627279 1.872508 0.662688 0.600580 
1978 1.97 2.024579 0.694089 2.001884 0.678034 0.705362 
1979 2.06  2.115689  0.731282  2.077742  0.722706  0.749381 
1980 2.02  2.130075  0.737688  2.091096  0.703098  0.756157 


Notas: Columna (1): Valores reales de Y de la tabla 7.1. 
Columna (2): Valores estimados de Y del modelo lineal (7.8.8). 
Columna (3): Valores estimados de log Y del modelo doble-log (7.8.9). 
Columna (4): Antilog de valores de la columna (3). 
Columna (5): Valores log de Y en la columna (1). 
Columna (6): Valores log de Y, en la columna (2). 
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Asignación de R? entre regresoras 


Retomemos el ejemplo de la mortalidad infantil. Vimos, con base en (7.6.2), que las dos regre- 
soras, PIBPC y TAM, explican 0.7077 o 70.77% de la variación de la mortalidad infantil. Pero 
ahora considere la regresión (7.7.2), donde se eliminó la variable TAM y como consecuencia el 
valor r? disminuyó hasta 0.1662. ¿Lo anterior significa que la diferencia en el valor r? de 0.5415 
(0.7077 — 0.1662) se atribuye a la variable omitida, TAM? Por otro lado, si considera la regresión 
(7.7.3) en la que se quitó la variable PIB, el valor r? disminuye hasta 0.6696. ¿Significa que la 
diferencia en el valor r° de 0.0381 (0.7077 — 0.6696) se debe a la variable omitida, PIBPC? 

Por tanto, la pregunta es: ¿podemos asignar la R? múltiple de 0.7077 entre las dos regreso- 
ras, PIBPC y TAM, de esta forma? Por desgracia, no, pues la asignación depende del orden de 
introducción de las regresoras, como acabamos de ilustrar. Parte de este problema radica en que 
las dos regresoras están correlacionadas, pues el coeficiente de correlación entre ambas es igual 
a 0.2685 (verifique a partir de los datos proporcionados en la tabla 6.4). En la mayor parte del 
trabajo con varias regresoras, la correlación entre ambas constituye un problema común. Por 
supuesto, dicho problema sería mucho más grave si existiese una perfecta colinealidad entre las 
regresoras. 

El mejor consejo práctico es que no tiene mucho sentido tratar de asignar el valor R? a sus 
regresoras constituyentes. 


El “juego” de maximizar R? 

Para concluir esta sección vale la pena una advertencia: algunas veces, los investigadores intentan 
maximizar R?, es decir, escogen el modelo que da la R? más elevada. Pero esto puede ser peli- 
groso, pues, en el análisis de regresión, el objetivo no es obtener una R? elevada per se, sino más 
bien obtener estimados confiables de los verdaderos coeficientes de regresión poblacional que 
permitan realizar inferencia estadística sobre ellos. En el análisis empírico no es inusual obtener 
una R? muy elevada, sino descubrir que algunos de los coeficientes de regresión no son estadísti- 
camente significativos o muestran signos contrarios a los esperados a priori. Por consiguiente, el 
investigador debe preocuparse más por la pertinencia lógica o teórica de las variables explicativas 
para la variable dependiente y por su significancia estadística. Si en este proceso obtenemos una 
R? elevada, muy bien; por otra parte, si R? es baja, esto no significa que el modelo sea necesa- 
riamente malo. '* 

De hecho Goldberger, quien es muy crítico sobre el papel de R?, afirmó: 


Desde nuestra perspectiva, R? tiene un papel muy modesto en el análisis de regresión, y es una 
medida de la bondad del ajuste de una regresión lineal por MC [mínimos cuadrados] muestral en 
un cuerpo de datos. Nada en el modelo de RC [MCRL] exige que R? sea elevada. Por tanto, una R? 
elevada no es evidencia en favor del modelo y una R? baja no es evidencia en su contra. 

En realidad, lo más importante sobre R? es que no es importante en el modelo de RC. El modelo 
de RC tiene que ver con parámetros en una población, no con la bondad de ajuste en la muestra... 


14 Algunos autores desearían reducir el acento en el uso de R? como medida de bondad del ajuste, al igual 
que para comparar dos o más valores de R?. Véase Christopher H. Achen, Interpreting and Using Regres- 
sion, Sage Publications, Beverly Hills, California, 1982, pp. 58-67, y C. Granger y P. Newbold, “R? and the 
Transformation of Regression Variables”, Journal of Econometrics, vol. 4, 1976, pp. 205-210. A propósito, la 
práctica de seleccionar un modelo con base en la R? más elevada, una especie de búsqueda exhaustiva, in- 
troduce lo que se conoce como sesgo de preprueba, que puede destruir algunas propiedades de los esti- 
madores de MCO del modelo clásico de regresión lineal. Sobre este tema, el lector puede consultar George 
G. Judge, Carter R. Hill, William E. Griffiths, Helmut Lútkepohl y Tsoun-Chao Lee, Introduction to the Theory 
and Practice of Econometrics, John Wiley, Nueva York, 1982, capítulo 21. 
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Si se insiste en una medida del éxito predictivo (o más bien el fracaso), bastaría o°: después de todo, 
el parámetro 0? es el error de predicción esperado al cuadrado que resultaría si se empleara la FEC 
[FRP] poblacional como predictora. Esto es, el error estándar de predicción elevado al cuadrado para 
valores relevantes de x [regresoras] puede ser informativo.!* 


7.9 La función de producción Cobb-Douglas: 
más sobre la forma funcional 


En la sección 6.4 demostramos cómo convertir, mediante transformaciones apropiadas, las rela- 
ciones no lineales en relaciones lineales, de forma que se facilite trabajar dentro del marco del 
MCRL. Las diversas transformaciones analizadas allí en el contexto del caso de dos variables se 
amplían sin dificultad a los modelos de regresión múltiple. En esta sección demostramos estas 
transformaciones con una extensión multivariada del modelo log-lineal de dos variables; hay 
más en los ejercicios y en los ejemplos ilustrativos en el resto de este libro. El ejemplo específico 
es la conocida función de producción Cobb-Douglas de la teoría de producción. 
La función de producción Cobb-Douglas, en su forma estocástica, se expresa como 


Y, = pı XË XÉ e" (7.9.1) 


donde Y = producción 
X = insumo trabajo 
X3 = insumo capital 
u = término de perturbación estocástica 
e = base del logaritmo natural 


De la ecuación (7.9.1) es claro que la relación entre la producción y los dos insumos es no 
lineal. Sin embargo, si transformamos este modelo, mediante la función logaritmo, tenemos: 


ln Y; = ln $; + b2 1n Xz; + p3 ln Xz; + u; 


(7.9.2) 
= bo + 21n Xz; + B3 lIn Xz; + ui 


donde fo = In £1. 

Escrito de esta forma, el modelo es lineal en los parámetros Bo, 62 y 3, y por consiguiente es 
un modelo de regresión lineal. Observe, sin embargo, que es no lineal en las variables Y y X, aun- 
que sí lo es en sus logaritmos. En resumen, (7.9.2) es un modelo log-log, doble-log o log-lineal, 
el equivalente en la regresión múltiple al modelo log-lineal con dos variables (6.5.3). 

Las propiedades de la función de producción Cobb-Douglas son bien conocidas: 


1. 2 es la elasticidad (parcial) de la producción respecto del insumo trabajo, es decir, mide 
el cambio porcentual en la producción debido a una variación de 1% en el insumo trabajo, con el 
insumo capital constante (véase el ejercicio 7.9). 


2. De igual forma, £; es la elasticidad (parcial) de la producción respecto del insumo capital, 
con el insumo trabajo constante. 


3. La suma (82 + $3) da información sobre los rendimientos a escala, es decir, la respuesta de 
la producción a un cambio proporcional en los insumos. Si esta suma es 1, existen rendimientos 
constantes a escala, es decir, la duplicación de los insumos duplica la producción, la triplicación 


15 Arthur S. Goldberger, op. cit., pp. 177-178. 
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de los insumos la triplica, y así sucesivamente. Si la suma es menor que 1, existen rendimientos 
decrecientes a escala: al duplicar los insumos, la producción crece en menos del doble. Por 
último, si la suma es mayor que 1, hay rendimientos crecientes a escala; la duplicación de los 
insumos aumenta la producción en más del doble. 


Antes de continuar, observe que siempre que se tenga un modelo de regresión log-lineal con 
cualquier número de variables, el coeficiente de cada variable X mide la elasticidad (parcial) de 
la variable dependiente Y respecto de esa variable. Así, si se tiene un modelo log-lineal con k 
variables: 


In Y, = o + b2 1n Xz; + 3 ln Xz; +-+- + Br In Xy; + ui (7.9.3) 


cada uno de los coeficientes de regresión (parcial), 2 hasta By, es la elasticidad (parcial) de Y 
respecto de las variables X> hasta Xp 16 


EJEMPLO 7.3 
Valor agregado, 
horas de mano de 
obra y aportación 
de capital en el sec- 
tor manufacturero 


TABLA 7.3 

Valor agregado, horas 
de mano de obra y 
aportación de capital 
en el sector manufac- 
turero de Estados Uni- 
dos, 2005 


Fuente: 2005 Annual Survey 

of Manufacturers, Sector 31: 

Estadísticas complementarias 
de Estados Unidos. 


Para ilustrar la función de producción Cobb-Douglas se obtuvieron los datos de la tabla 7.3, 
referentes al sector manufacturero de los 50 estados de Estados Unidos y Washington, D.C., 
para 2005. 

Si el modelo (7.9.2) satisface los supuestos del modelo clásico de regresión lineal,!? obte- 
nemos la siguiente regresión por el método de MCO (véase el listado de computadora en el 
apéndice 7A, sección 7A.5): 


Insumo Insumo capital 
Producción mano de obra Inversión 
Valor agregado Horas de trabajo de capital 
(miles de dólares) (miles) (miles de dólares) 

Área Y X2 X3 
Alabama 38 372 840 424 471 2 689 076 
Alaska 1 805 427 19 895 57 997 
Arizona 23 736 129 206 893 2 308 272 
Arkansas 26 981 983 304 055 1376235 
California 217 546 032 1 809 756 13554116 
Colorado 19 462 751 180 366 1790 751 
Connecticut 28 972772 224 267 1 210 229 
Delaware 14 313 157 54 455 421 064 
Distrito de Columbia 159 921 2029 7 188 
Florida 47 289 846 471 211 2 761 281 
Georgia 63 015 125 659 379 3 540 475 
Hawaii 1 809 052 17 528 146 371 
Idaho 10 511 786 75 414 848 220 
Illinois 105 324 866 963 156 5 870 409 
Indiana 90 120 459 835 083 5 832 503 
lowa 39 079 550 336 159 1 795 976 
Kansas 22 826 760 246 144 1595 118 
Kentucky 38 686 340 384 484 2 503 693 
Louisiana 69 910 555 216 149 4 726 625 


16 Para ver esto, diferencie parcialmente la ecuación (7.9.3) respecto del log de cada variable X. Por consi- 
guiente, d In Y/3 In X2 = (ƏY /ƏX2)(X2/Y) = Ba, que, por definición, es la elasticidad de Y respecto de X2 y 
ð In Y/a In X3 = (9Y/9X31(X3/Y) = ß3, que es la elasticidad de Y respecto de X3, y así sucesivamente. 

17 Observe que en la función de producción Cobb-Douglas (7.9.1) se presentó el término de error esto- 
cástico en una forma especial que, en la transformación logarítmica resultante, ingrese en la forma lineal 
usual. Sobre este tema, véase la sección 6.9. 
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Maine 7 856 947 82 021 415 131 
Maryland 21 352 966 174 855 1729116 
Massachusetts 46 044 292 355 701 2 706 065 
Michigan 92 335 528 943 298 5 294 356 
Minnesota 48 304 274 456 553 2 833 525 
Mississippi 17 207 903 267 806 1 212 281 
Missouri 47 340 157 439 427 2 404 122 
Montana 2 644 567 24 167 334 008 
Nebraska 14 650 080 163 637 627 806 
Nevada 7 290 360 59 737 522 335 
New Hampshire 9 188 322 96 106 507 488 
New Jersey 51 298 516 407 076 3 295 056 
New Mexico 20 401 410 43 079 404 749 
New York 87 756 129 727 177 4 260 353 
North Carolina 101 268 432 820 013 4 086 558 
North Dakota 3 556 025 34 723 184 700 
Ohio 124 986 166 1174 540 6 301 421 
Oklahoma 20 451 196 201 284 1 327 353 
Oregon 34 808 109 257 820 1 456 683 
Pennsylvania 104 858 322 944 998 5896 392 
Rhode Island 6 541 356 68 987 297 618 
South Carolina 37 668 126 400 317 2 500 071 
South Dakota 4 988 905 56 524 311 251 
Tennessee 62 828 100 582 241 4 126 465 
Texas 172 960 157 1 120 382 11 588 283 
Utah 15 702 637 150 030 762 671 
Vermont 5 418 786 48 134 276 293 
Virginia 49 166 991 425 346 2 731 669 
Washington 46 164 427 313 279 1 945 860 
West Virginia 9185 967 89 639 685 587 
Wisconsin 66 964 978 694 628 3 902 823 
Wyoming 2979475 15 221 361 536 
InYi= 3.8876 + 0.4683InX», + 0.5213InX3; 
(0.3962) (0.0989) (0.0969) 
t=(9.8115) (4.7342) (5.3803) (7.9.4) 
R?=0.9642 gl =48 
R2 = 0.9627 


De la ecuación (7.9.4), vemos que, en el sector manufacturero de Estados Unidos durante 
2005, las elasticidades de la producción respecto del trabajo y el capital fueron 0.4683 y 0.5213, 
respectivamente. En otras palabras, en los 50 estados de Estados Unidos y el Distrito de Co- 
lumbia, manteniendo constante el insumo capital, un incremento de 1% en el insumo trabajo 
provocó, en promedio, un incremento de cerca de 0.47% en la producción. En forma similar, 
manteniendo constante el insumo trabajo, un incremento de 1% en el insumo capital generó, 
en promedio, un incremento de cerca de 0.52% en la producción. Sumamos las dos elasti- 
cidades de la producción y obtenemos 0.99, que da el valor del parámetro de rendimientos 
a escala. Como es evidente, el sector manufacturero de los 50 estados de Estados Unidos y el 
Distrito de Columbia se caracterizó por rendimientos constantes a escala. 18 

Desde el punto de vista puramente estadístico, la línea de regresión estimada se ajusta muy 
bien a los datos. El valor R? de 0.9642 significa que cerca de 96% de la variación en el (log de 
la) producción se explica por el (log del) trabajo y el (log del) capital. En el capítulo 8 veremos 
cómo utilizar los errores estándar estimados para probar hipótesis sobre los “verdaderos” valores 
de los parámetros de la función de producción Cobb-Douglas en el sector manufacturero de la 
economía estadounidense. 
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7.10 Modelos de regresión polinomial 


FIGURA 7.1 
Curva de costo marginal 
en forma de U. 


Ahora consideraremos una clase de modelos de regresión múltiple, los modelos de regresión 
polinomial, de amplio uso en la investigación econométrica relacionada con funciones de costo 
y de producción. Al introducir estos modelos, ampliamos la gama de modelos a todos los que se 
aplica fácilmente el modelo clásico de regresión lineal. 

Para ordenar las ideas, considere la figura 7.1 que relaciona el costo marginal (CM) de corto 
plazo de la producción de un bien (Y) con el nivel de su producción (X). La curva de CM de la 
figura, la curva con forma de U de los libros de texto, muestra que la relación entre CM y pro- 
ducción es no lineal. Si se cuantificara esta relación a partir de los puntos dispersos dados, ¿cómo 
se haría? En otras palabras, ¿qué tipo de modelo econométrico expresa la naturaleza primero 
decreciente y luego creciente del costo marginal? 

Geométricamente, la curva CM de la figura 7.1 representa una parábola. Matemáticamente, 
la parábola está representada por la siguiente ecuación: 


Y = bo + b1 X + kX? (7.10.1) 


que se denomina una función cuadrática o, más generalmente, un polinomio de segundo grado 
en la variable X; la mayor potencia de X representa el grado del polinomio (si se agregara X? a la 
función anterior, sería un polinomio de tercer grado, y así sucesivamente). 

La versión estocástica de (7.10.1) se escribe así: 


Y; = po + 1 Xi + PX + ui (7.10.2) 


que se denomina regresión polinomial de segundo grado. 
La regresión polinomial de grado k general puede escribirse así: 


Y; = o + Bi Xi + BX? +--+ p XE + ui (7.10.3) 


Tenga en cuenta que, en estos tipos de regresiones polinomiales, sólo hay una variable explicativa 
al lado derecho, pero aparece elevada a distintas potencias, convirtiéndolas en modelos de regre- 
sión múltiple. A propósito, observe que si se supuso que X; es fija o no estocástica, los términos 
de X; elevados a alguna potencia también se hacen fijos o no estocásticos. 

¿Presentan estos modelos problemas especiales de estimación? Como el polinomio de se- 
gundo grado (7.10.2) o el polinomio de grado k (7.10.13) son lineales en los parámetros, las 8 
se estiman mediante las metodologías usuales de MCO o MV. Pero, ¿qué sucede con el problema 


Costo marginal 


Producción 
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de colinealidad? ¿Acaso las diferentes X no están altamente correlacionadas puesto que todas son 
potencias de X? Sí, pero recuerde que todos los términos como X?, X?, X4, ete., son funciones 
no lineales de X y, por consiguiente, en términos estrictos, no violan el supuesto de no multicoli- 
nealidad. En resumen, es posible estimar modelos de regresión polinomial mediante las técnicas 
estudiadas en este capítulo sin que se presenten nuevos problemas de estimación. 


EJEMPLO 7.4 
Estimación de la 
función de costo 
total 


TABLA 7.4 
Costo total (Y) y 
producción (X) 


Como ejemplo de regresión polinomial, considere los datos de la tabla 7.4 sobre producción 
de un bien y su costo de producción total en el corto plazo. ¿Qué tipo de modelo de regre- 
sión ajusta estos datos? Para este fin, trace primero el diagrama de dispersión, que se muestra 
en la figura 7.2. 

De esta figura es claro que la relación entre el costo total y la producción semeja una curva 
en forma de S alargada; observe cómo la curva de costo total primero aumenta poco a poco y 
luego lo hace rápido, como lo establece la conocida ley de rendimientos decrecientes. Esta forma 
de S de la curva de costo total se representa por el siguiente polinomio cúbico o de tercer grado: 


Yi = bo + B1Xi+B2X? + b3 XP + ui (7.10.4) 


donde Y = costo total y X = producción. 

En virtud de los datos de la tabla 7.4, aplicamos el método de MCO para estimar los paráme- 
tros de (7.10.4). Pero, antes de hacerlo, vea lo que la teoría económica indica sobre la función 
cúbica de costo de corto plazo (7.10.4). La teoría elemental de precios muestra que, en el corto 
plazo, las curvas de costo marginal de producción (CM) y de costo promedio (CP) en general 
tienen forma de U (al principio), a medida que la producción aumenta tanto el CM como el 
CP decrecen, pero, después de un nivel dado de producción, ambas vuelven a aumentar, de 
nuevo como consecuencia de la ley de rendimientos decrecientes. Esto se aprecia en la figura 
7.3 (véase también la figura 7.1). Y, como las curvas de CM y de CP se derivan de la curva de 
costo total, la naturaleza de estas curvas en forma de U impone algunas restricciones sobre los 
parámetros de la curva de costo total (7.10.4). De hecho, puede mostrarse que los parámetros 


FIGURA 7.2 Curva de costo total. 
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(continúa) 


212 Parte Uno Modelos de regresión uniecuacionales 


EJEMPLO 7.4 


(continuación) 


FIGURA 7.3 Funciones de costo de corto plazo. 
y 


Costo 


Producción 


~< 


CM 


CR 


Costo 


Producción 


de (7.10.4) deben satisfacer las siguientes restricciones si se desea observar las curvas de costo 
marginal y promedio de corto plazo en la forma típica de U:18 


1. Bo, B1 y B3>0 
2, ael (7.10.5) 


3. p2 < 36163 


Toda esta exposición teórica puede parecer un poco tediosa. Pero este conocimiento es en 
extremo útil cuando se examinan los resultados empíricos, pues, si éstos no concuerdan con 
las expectativas a priori, entonces, suponiendo que no se cometió un error de especificación (es 
decir, que se escogió el modelo erróneo), se tendrá que modificar la teoría, o buscar una nueva 
y reiniciar la investigación empírica desde el principio. Pero, como comentamos en la introduc- 
ción, ésta es la naturaleza de toda investigación empírica. 


Resultados empíricos. Cuando la regresión polinomial de tercer grado se ajustó a los datos de 
la tabla 7.4, obtuvimos los siguientes resultados: 


Y; = 141.7667 + 63.4776X;— 12.9615X? + 0.9396X? 
(6.3753) (4.7786) (0.9857) (0.0591) R? + 0.9983 (7.10.6) 


(Nota: Las cifras entre paréntesis son los errores estándar estimados.) Aunque examinaremos la 
significancia estadística de estos resultados en el siguiente capítulo, el lector puede verificar que 
corresponden a las expectativas teóricas de (7.10.5). Como ejercicio para el lector queda la tarea 
de interpretar la regresión (7.10.6). 


18 Véase Alpha C. Chiang, Fundamental Methods of Mathematical Economics, 3a. ed., McGraw-Hill, Nueva 
York, 1984, pp. 250-252. 
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EJEMPLO 7.5 
Tasa de crecimiento 
del PIB y PIB per 
cápita relativo para 
2007 en 190 países 
(en miles de millo- 


nes de dólares de 
2000) 


Fuente: Indicadores de desarro- 


llo mundial del Banco Mundial, 


ajustados a la base de 2000, y 
valores estimados y proyecta- 
dos obtenidos por el Economic 
Research Service 


Como otro ejemplo económico del modelo de regresión polinomial, considere los siguientes 
resultados de regresión: 


TPIB;= 5.5347 — 5.5788 PIBR + 2.8378 PIBR? 
ee = (0.2435) (1.5995) (1.4391) 
R?= 0.1092 Rajs = 0.0996 


(7.10.7) 


donde TPIB = tasa de crecimiento del PIB, porcentaje en 2007, y PIBR = PIB per cápita relativo 
en 2007 (porcentaje del PIB per cápita de Estados Unidos en 2007). La R? ajustada (R? ajs) indica 
que, después de considerar el número de regresoras, el modelo sólo explica alrededor de 9.96% 
de la variación en el TPIB. Incluso la R? sin ajustar de 0.1092 parece baja. Lo anterior puede pare- 
cer un valor muy desalentador, pero, como veremos en el siguiente capítulo, tales valores bajos 
de R? suelen encontrarse en datos transversales con un gran número de observaciones. Además, 
incluso una R? en apariencia baja puede ser estadísticamente significativa (es decir, distinta de 
cero), como mostraremos en el próximo capítulo. 


“7.11 Coeficientes de correlación parcial 


Explicación de los coeficientes de correlación simple y parcial 

En el capítulo 3 presentamos el coeficiente de correlación r como medida del grado de asociación 
lineal entre dos variables. Para el modelo de regresión con tres variables podemos calcular tres 
coeficientes de correlación: r12 (correlación entre Y y X2), r¡3 (coeficiente de correlación entre 
Y y X3) y r23 (coeficiente de correlación entre X2 y X3); observe que el subíndice 1 representa 
a Y por conveniencia notacional. Estos coeficientes de correlación se denominan coeficientes de 
correlación bruta o simple, o coeficientes de correlación de orden cero, y se calculan a partir 
de la definición del coeficiente de correlación dada en (3.5.13). 

Pero consideremos ahora esta interrogante: ¿podemos decir en realidad que r¡2 mide el “ver- 
dadero” grado de asociación (lineal) entre Y y X2 cuando existe una tercera variable X3 que 
puede estar asociada a ellas? Esta pregunta es análoga a la siguiente: suponga que el verdadero 
modelo de regresión es (7.1.1) pero omitimos del modelo la variable X3, y sólo hacemos la re- 
gresión Y sobre X para obtener el coeficiente de la pendiente de, por ejemplo, b12. ¿Será igual 
este coeficiente al verdadero coeficiente $) si, para empezar, se estimara el modelo (7.1.1)? La 
respuesta debe ser clara a partir del análisis en la sección 7.7. En general, r12 tal vez no refleje 
el verdadero grado de asociación entre Y y X en presencia de X3. De hecho, es probable que dé 
una falsa impresión de la naturaleza de la asociación entre Y y X2, como demostraremos en breve. 
Por consiguiente, lo que se necesita es un coeficiente de correlación que sea independiente de 
la influencia, si hay alguna, de X; sobre X y Y. Dicho coeficiente de correlación se obtiene y se 
conoce apropiadamente como coeficiente de correlación parcial. En cuanto concepto, es similar 
al coeficiente de regresión parcial. Definimos 


r123 = coeficiente de correlación parcial entre Y y X2, manteniendo X3 constante 
r132 = coeficiente de correlación parcial entre Y y X3, manteniendo X constante 


r231 = coeficiente de correlación parcial entre X2 y X3, manteniendo Y constante 


* Opcional. 
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Estas correlaciones parciales se obtienen con facilidad a partir de los coeficientes de correlación 
simples o de orden cero, de la siguiente forma (para las pruebas, véase los ejercicios):!” 


E e (7.11.1) 


J0- rh) (1-73) 
J0- rh) (1-73) 


J0 -rh) (l-r) 


Las correlaciones parciales de las ecuaciones (7.11.1) a (7.11.3) se denominan coeficientes de 
correlación de primer orden. Por orden se quiere decir el número de subíndices secundarios. 
Así r1234 sería el coeficiente de correlación de orden dos, r12.345 sería el coeficiente de corre- 
lación de orden tres, y así sucesivamente. Como ya vimos, r12, r13 y las siguientes se denominan 
correlaciones simples o de orden cero. La interpretación de r1234, por ejemplo, es que éste da 
el coeficiente de correlación entre Y y X2, manteniendo constantes X3 y X4. 


132 (7.1 1.2) 


F231 = (7.11.3) 


Interpretación de los coeficientes de correlación 

simple y parcial 

En el caso de dos variables, la r simple tenía un significado directo: medía el grado de asociación 
(lineal), (mas no causal), entre la variable dependiente Y y la variable explicativa X. Sin embargo, 
una vez fuera del caso de dos variables, se debe prestar cuidadosa atención a la interpretación del 
coeficiente de correlación simple. De (7.11.1), por ejemplo, observamos lo siguiente: 


1. Aunque r12 = 0, r123 no será cero a menos que r13 O 723, o ambos, sean cero. 


2. Si ri2 = 0 y r13 y r23 son diferentes de cero y tienen el mismo signo, r123 será negativo, 
mientras que si son de signos opuestos, será positivo. Un ejemplo aclarará este punto. Sea Y = 
rendimiento del cultivo, X = la lluvia y X; = la temperatura. Suponga que r12 = 0, es decir, no 
hay asociación entre el rendimiento del cultivo y la lluvia. Tenga en cuenta, además, que r13 es 
positiva y 723 es negativa. Entonces, como lo indica (7.11.1), r123 será positivo; es decir, con la 
temperatura constante, existe una asociación positiva entre el rendimiento del cultivo y la lluvia. 
Sin embargo, este resultado, en apariencia paradójico, no es sorprendente. Como la temperatura 
X3 afecta el rendimiento Y y también afecta la lluvia X2, con el fin de encontrar la relación neta 
entre rendimiento del cultivo y lluvia se debe eliminar la influencia de la “molesta” variable tem- 
peratura. Este ejemplo muestra que el coeficiente de correlación simple puede generar resultados 
equivocados. 


3. Los términos 712.3 y r12 (y comparaciones similares) no necesitan tener el mismo signo. 


4. En el caso de dos variables r? se encuentra entre 0 y 1. La misma propiedad se cumple para 
los coeficientes de correlación parcial al cuadrado. Así, el lector debe verificar que es posible 
obtener la siguiente expresión a partir de (7.11.1): 


0< fa + FA + r2, — 2ri2r13r23 < 1 (7.11.4) 


12 La mayoría de los programas de cómputo para análisis de regresión múltiple calculan de forma rutinaria 
los coeficientes de correlación simples; por tanto, los coeficientes de correlación parciales se obtienen de 
modo inmediato. 
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que da las interrelaciones entre los tres coeficientes de correlación de orden cero. Se derivan 
expresiones similares de las ecuaciones (7.11.2) y (7.11.3). 


5. Suponga que r13 = r23 = 0. ¿Significa esto que r12 también es cero? La respuesta es obvia 
y se desprende de (7.11.4). El hecho de que Y y X; y X2 y X; no estén correlacionadas no significa 
que Y y X no lo estén. 

A propósito, observe que la expresión r?;,3 puede denominarse coeficiente de determina- 
ción parcial e interpretarse como la proporción de la variación en Y no explicada por la variable 
X3 que se explica por la inclusión de X en el modelo (véase el ejercicio 7.5). Conceptualmente, 
es semejante a R?. 


Antes de continuar observe las siguientes relaciones entre R?, los coeficientes de correlación 
simple y los coeficientes de correlación parcial: 


2 2 
Tí) Fria — 2r1211 3523 


R? = > (7.11.5) 
l= r53 

R? = rf, + (1- ri) r32 (7.11.6) 

R? = rf; + (1— r?) rizs (7.11.7) 


Para terminar esta sección, considere lo siguiente: Se planteó antes que R? no disminuye 
si se introduce una variable explicativa adicional en el modelo, lo cual se aprecia con claridad 
de (7.11.6). Esta ecuación afirma que la proporción de la variación en Y explicada por X y X% 
conjuntamente es la suma de dos partes: la parte explicada sólo por X> ( = r?,) y la parte no ex- 
plicada por X> (= 1 — r?,), por la proporción explicada por X3 después de mantener constante la 


influencia de X2. Ahora R°? > r?, siempre que r?, , > 0. En el peor de los casos, r?, , será cero, 


en cuyo caso R? = r?,. 


Resumen y 
conclusiones 


1. En este capítulo se presentó el modelo más sencillo posible de regresión lineal múltiple, a 
saber, el modelo de regresión con tres variables. Se entiende que el término lineal se refiere 
a linealidad en los parámetros y no necesariamente en las variables. 


2. Aunque un modelo de regresión con tres variables es, en muchas formas, una extensión del 
modelo con dos variables, hay algunos conceptos nuevos, como coeficientes de regresión par- 
cial, coeficientes de correlación parcial, coeficiente de correlación múltiple, R? ajustada y no 
ajustada (por grados de libertad), multicolinealidad y sesgo de especificación. 

3. En este capítulo se consideró también la forma funcional del modelo de regresión múltiple, 
como la función de producción Cobb-Douglas y el modelo de regresión polinomial. 


4. Si bien R? y R? ajustada son medidas globales que indican la forma en que el modelo escogido 
se ajusta a un conjunto dado de datos, no debe exagerarse su importancia. Los aspectos críti- 
cos son las expectativas teóricas en que se basa el modelo en términos de los signos a priori 
de los coeficientes de las variables incluidas en él y, como se muestra en el siguiente capítulo, 
su significancia estadística. 

5. Los resultados presentados en este capítulo se generalizan fácilmente a un modelo de regre- 
sión lineal múltiple que implique cualquier número de regresoras. Pero el álgebra se vuelve te- 
diosa. Este tedio se evita al recurrir al álgebra matricial. Para el lector interesado, la extensión 
al modelo de regresión de k variables mediante álgebra matricial se presenta en el apéndice 
C, opcional. Pero el lector general puede leer el resto del texto sin conocer mucho de álgebra 
matricial. 
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EJERCICIOS 


TABLA 7.5 


Preguntas 


Tells 


Ve 


ESA 


74. 


TES 
7.6. 


TT 


Considere los datos de la tabla 7.5. 


Y X2 X3 
1 1 2 
3 2 1 
8 3 -3 


Con base en estos datos, estime las siguientes regresiones: 


Y, = 01 +09 X9 + 4; (1) 
Me = A Hp) r U (2) 
Y, = Jo + EA + P343 +4; (3) 


Nota: Estime sólo los coeficientes y no los errores estándar. 
a) ¿Es a = b2? ¿Por qué? 

b) ¿Es 43 = B3? ¿Por qué? 

¿Qué conclusión importante obtiene de este ejercicio? 


De los siguientes datos estime los coeficientes de regresión parcial, sus errores estándar y 
los valores R? ajustada y sin ajustar: 


Y = 367.693 Xə = 402.760  X3=8.0 
D — YY? = 6 6042.269 Y a =O = 84 855.096 
Deg — X3)? = 280.000 Na — YN Xo; — X2) = 74 778.346 


NE — YN X3; — X3) = 4 250.900 S Qa — XoM Xy — X3) = 4 796.000 
n =S 


Demuestre que la ecuación (7.4.7) se expresa también como 


2 Y yi (2; — b23x3;) 
Y (ea; — b23x3;)? 


covariación neta (de x3) entre y y x2 


variación neta (de x3) en x2 


donde bz; es el coeficiente de la pendiente en la regresión de X2 sobre X3. (Sugerencia: 
Recuerde que b23 = X` x2;x3;/ Y x%;.) 


En un modelo de regresión múltiple se le indica que el término de error u; tiene la siguiente 
distribución de probabilidades: u; ~ N(0, 4). ¿Cómo llevaría a cabo un experimento Monte 
Carlo para verificar que la verdadera varianza es de hecho 4? 

Demuestre que rf, , = (R? — r?4)/(1 — r?,) e interprete la ecuación. 

Si la relación aX] + 09X) + 0343 = 0 se cumple para todos los valores de X1, X2 y X3, 
encuentre los valores de los tres coeficientes de correlación parcial. 

¿Es posible obtener los siguientes resultados de un conjunto de datos? 

a) Y23 = 0.9, F13 = —0.2, r12 = 0.8 

b) F12? = 0.6, F23 = —0.9, r31 = —0.5 

c) 21 = 0.01,713 = 0.66, F23 = —0.7 


7.8. 


19. 


7.10. 


7.11. 


TM 


IS. 


7.14. 
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Considere el siguiente modelo: 

Y; = B¡ + b2 Educación, + 2 Años de experiencia + u; 
Suponga que hace caso omiso de la variable correspondiente a los años de experiencia. 
¿Qué tipos de problemas o de sesgos esperaría que surgieran? Explique de manera verbal. 


Demuestre que £2 y $3 en (7.9.2) dan en realidad las elasticidades producción del trabajo 
y del capital. (Esta pregunta puede resolverse sin utilizar cálculo; sólo recuerde la defi- 
nición del coeficiente de elasticidad y que un cambio en el logaritmo de una variable es 
relativo, suponiendo que los cambios sean pequeños.) 

Considere el modelo de regresión lineal de tres variables analizado en este capítulo. 


a) Suponga que se multiplican todos los valores Xz por 2. ¿Cuál será el efecto de este 
escalamiento, si es que se produce alguno, sobre las estimaciones de los parámetros y 
sus errores estándar? 


b) Ahora, en lugar de a), suponga que se multiplican todos los valores Y por 2. ¿Cuál sería 
el efecto de esto, si es que hay alguno, sobre los parámetros estimados y sus errores 
estándar? 


En general, R? 4 r?, + r?,, pero esto sólo se cumple si r23 = 0. Comente y resalte la im- 
portancia de este hallazgo. [Sugerencia: Consulte la ecuación (7.11.5)]. 


Considere los siguientes modelos.* 

Modelo A: Y, =01 +097X>, + 03X3, + Uy, 

Modelo B: (Y, — Xz) = B1 + B2X2: + B3X3, + uz 
a) ¿Serán iguales las estimaciones de MCO de a, y 1? ¿Por qué? 
b) ¿Serán iguales las estimaciones de MCO de az y 63? ¿Por qué? 
c) ¿Cuál es la relación entre a y B2? 
d) ¿Es posible comparar los términos R? de los dos modelos? ¿Por qué? 
Suponga que estima la función de consumo? 

Y, =01 +07X; + uy 
y la función de ahorro 
Zi = Pi + B2A; + uni 
donde Y = consumo, Z = ahorro, X = ingreso y X = Y + Z, es decir, el ingreso es igual al 
consumo más el ahorro. 
a) ¿Cuál es la relación, si existe, entre œ2 y 2? Muestre sus cálculos. 
b) ¿Será la suma de los residuos al cuadrado, SCR, la misma para los dos modelos? Ex- 
plique. 
c) ¿Se pueden comparar los términos R? de los dos modelos? ¿Por qué? 
Suponga que expresa el modelo Cobb-Douglas de (7.9.1) de la siguiente manera: 
Ya = (A 

Si expresa este modelo en términos logarítmicos, tendrá In u; como el término de perturba- 
ción en el lado derecho. 


a) ¿Qué supuestos probabilísticos debe hacer sobre ln u; para aplicar el MCRLN? ¿Cómo 
probaría esto con los datos de la tabla 7.3? 


b) ¿Se aplican los mismos supuestos a u;? ¿Por qué? 


* Adaptado de Wojciech W. Charemza y Derek F. Deadman, Econometric Practice: General to Specific Mode- 
lling, Cointegration and Vector Autoregression, Edward Elgar, Brookfield, Vermont, 1992, p. 18. 


t Adaptado de Peter Kennedy, A Guide To Econometrics, 3a. ed., The MIT Press, Cambridge, Massachusetts, 
1992, p. 308, pregunta 9. 
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7.15. Regresión a través del origen. Considere la siguiente regresión a través del origen: 
Y; = PX + BA + û; 
a) ¿Qué pasos seguiría al estimar las incógnitas? 
b) ¿Será X` ù; cero para este modelo? ¿Por qué? 
c) ¿Será X ù; Xz: = Y 4;X3; = 0 para este modelo? 
d) ¿Cuándo utilizaría un modelo de este tipo? 
e) ¿Puede generalizar los resultados para el modelo de k variables? 


(Sugerencia: Siga el análisis para el caso de dos variables del capítulo 6.) 


Ejercicios empíricos 


7.16. La demanda de rosas.* En la tabla 7.6 se presentan datos trimestrales sobre estas varia- 
bles: 


Y = cantidad de rosas vendidas, docenas 
X> = precio promedio al mayoreo de las rosas, $/docena 
X = precio promedio al mayoreo de los claveles, $/docena 
X4 = ingreso familiar disponible promedio semanal, $/semana 


X; = variable de tendencia que toma valores de 1, 2, y así sucesivamente, durante el pe- 
riodo 1971-III a 1975-I1 en el área metropolitana de Detroit. 


Se le pide considerar las siguientes funciones de demanda: 
Y, =01 + 0X7 + 03A3, + 04X4, + 05X5 + Uy 
InY, = pı + B21nX2, + B3 1nX3, + BalnXa, + BsAs, + ur 


a) Estime los parámetros del modelo lineal e interprete los resultados. 
b) Estime los parámetros del modelo log-lineal e interprete los resultados. 


TABLA 7.6 


K Año y 
Demanda aimes de trimestre Y Xa X3 X4 X; 
rosas en el área metro- 
politana de Detroit, de 1971-III 11 484 2.26 3.49 158.11 1 
1971-IIl a 1975-11 -IV 9 348 2.54 2.85 17556 2 
1972- 8 429 3.07 4.06 165.26 3 
-Il 10 079 2.91 3.64 172-92 4 
-Ill 9 240 23 3.21 178.46 5 
-IV 8 862 27 3.66 198.62 6 
1973-1 6 216 3.59 3.76 186.28 7 
-Il 8 253 525 3.49 188.98 8 
-Ill 8 038 2.60 313 180.49 9 
-IV 7 476 2.89 3.20 18855 10 
1974-1 5911 B7 3.65 181.87 11 
-Il 7 950 3.64 3.60 185.00 12 
-IIl 6 134 2.82 2.94 184.00 13 
-IV 5 868 2.96 U2 188.20 14 
1975-1 3160 4.24 3.58 1775:67 15 
-Il 5 872 3.69 BOO 188.00 16 


* El autor agradece a Joe Walsh por recopilar estos datos de un mayorista en el área metropolitana de Detroit 
y por su subsiguiente procesamiento. 


ATA 


7.18. 
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c) B2, P3 y 4 dan respectivamente las elasticidades de la demanda respecto del precio 
propio, precio cruzado e ingreso. ¿Cuáles son, a priori, los signos de estas elasticida- 
des? ¿Concuerdan estos resultados con las expectativas a priori? 

¿ p P 


d) ¿Cómo calcularía las elasticidades precio propio, precio cruzado e ingreso en el mo- 
delo lineal? 

e) Con base en el análisis, ¿cuál modelo, si existe, escogería y por qué? 
Actividad de exploración. Reciben el nombre de “pozos de exploración” los que se perfo- 
ran para encontrar y producir petróleo o gas natural en una zona mejorada, o para encontrar 
una nueva reserva en un yacimiento donde antes se encontró petróleo o gas natural, o para 
extender el límite de una reserva de petróleo o gas conocida. La tabla 7.7 contiene datos 
sobre estas variables:* 

Y = número de pozos de exploración perforados 
X> = precio en la cabeza del pozo en el periodo anterior (en dólares constantes, 1972 = 100) 
X3 = producción interna 
X4 = PNB en dólares constantes (1972 = 100) 
X; = variable de tendencia, 1948 = 1, 1949 =2,..., 1978 = 31 


Vea si el siguiente modelo se ajusta a los datos: 


Y, = Bi + B2X2 + b3 ln Xy + B4Xa4, + B5X5, + u: 

a) ¿Puede ofrecer una justificación a priori para este modelo? 

b) Si el modelo es aceptable, estime los parámetros del modelo y sus errores estándar, y 
obtenga R? y R?. 

c) Comente sus resultados desde el punto de vista de sus expectativas a priori. 

d) ¿Qué otra especificación sugeriría para explicar la actividad de exploración? ¿Por 
qué? 

Desembolsos del presupuesto de defensa de Estados Unidos, 1962-1981. Para explicar el 

presupuesto de defensa de Estados Unidos, considere el siguiente modelo: 


Y, = Pi + B2X21 + P3X31 + BaXa, + BsX5, + ur 
donde Y, = desembolsos del presupuesto de defensa durante el año f, $ miles de mi- 
llones 
Xz, = PNB durante el año £, $ miles de millones 
X3, = ventas militares de Estados Unidos/ayuda en el año £, $ miles de millones 
Xy = ventas de la industria aeroespacial, $ miles de millones 


X5,= conflictos militares que implican a más de 100 000 soldados. Esta variable 
adquiere el valor de 1 cuando participan 100 000 soldados o más, y es igual a 
cero cuando el número de soldados no llega a 100 000. 
Para probar este modelo, se proporcionan datos en la tabla 7.8. 
a) Estime los parámetros de este modelo y sus errores estándar, y obtenga R?, R? modifi- 
cada y R?. 
b) Comente los resultados, considerando cualquier expectativa a priori que tenga sobre la 
relación entre Y y las diversas variables X. 
c) ¿Qué otra(s) variable(s) incluiría en el modelo y por qué? 


* El autor agradece a Raymond Savino por recopilar y procesar estos datos. 
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nd exploración a PNB 
Fuente: Energy Information Miles de Precio por (millones miles de 
Administration, Informe al pozos de barril, de barriles millones de 
Congreso Ias exploración $ constantes diarios) $ constantes Tiempo 
(Y) (X2) (43) (X4) (X5) 
8.01 4.89 5.52 487.67 1948 = 1 
9.06 4.83 5.05 490.59 1949 = 2 
10.31 4.68 5.41 533.55 1950 = 3 
11.76 4.42 6.16 576.57 1951 =4 
12.43 4.36 6.26 598.62 1952=5 
13.31 4.55 6.34 621.77 1953=6 
13.10 4.66 6.81 613.67 1954=7 
14.94 4.54 7.15 654.80 1955 = 8 
16.17 4.44 7.17 668.84 1956=9 
14.71 4.75 6.71 681.02 1957 =10 
13.20 4.56 7.05 679.53 1958 =11 
13.19 4.29 7.04 720.53 1959 =12 
11.70 4.19 7.18 736.86 1960 =13 
10.99 4.17 7.33 755.34 1961 =14 
10.80 4.11 7.54 799.15 1962=15 
10.66 4.04 7.61 830.70 1963=16 
10.75 3.96 7.80 874.29 1964 = 17 
9.47 3.85 8.30 925.86 1965 = 18 
10.31 3.75 8.81 980.98 1966 = 19 
8.88 3.69 8.66 1 007.72 1967 = 20 
8.88 3.56 8.78 1 051.83 1968 = 21 
9.70 3.56 9.18 1 078.76 1969 = 22 
7.69 3.48 9.03 1 075.31 1970 = 23 
6.92 3.53 9.00 1 107.48 1971 = 24 
7.54 3.39 8.78 1171.10 1972=25 
7.47 3.68 8.38 1 234.97 1973=26 
8.63 5.92 8.01 1217.81 1974 = 27 
9.21 6.03 7.78 1 202.36 1975 = 28 
9.23 6.12 7.88 1271.01 1976 = 29 
9.96 6.05 7.88 1 332.67 1977 = 30 
10.78 5.89 8.67 1 385.10 1978 = 31 


7.19. Demanda de carne de pollo en Estados Unidos, 1960-1982. Para estudiar el consumo per 
cápita de carne de pollo en Estados Unidos se presentan los datos de la tabla 7.9, 


donde Y = consumo per capita de carne de pollo, lbs 
X = ingreso per cápita real disponible, $ 
X3 = precio real al menudeo del pollo por lb, ¢ 
X4 = precio real al menudeo del cerdo por lb, ¢ 
X5 = precio real al menudeo de la carne de res por lb, ¢ 


X6 = Precio real compuesto de los sustitutos de pollo por lb, ¢, el cual es un prome- 
dio ponderado de los precios reales al menudeo por libra de carne de cerdo y 
de res; las ponderaciones son los consumos relativos de la carne de res y de 
cerdo en el consumo total de estos productos. 
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TABLA 7.8 
Desembolsos del presu- Ventas/ 
P ; a 
aus de Desembolsos asistencias 
E del militares Ventas de 
Estados Unidos, z ; a 
1962-1981 presupuesto de Estados la industria Conflictos 
de defensa PNB Unidos aeroespacial 100 000+ 
Fuente: Albert Lucchino recopiló Año ( Y) (X 2) (X 3) (X4) (X 5) 
tos datos de diversas publica- 

E E A 1962 51.1 560.3 0.6 16.0 0 
1963 52.3 590.5 0.9 16.4 0 
1964 53.6 632.4 1.1 16.7 0 
1965 49.6 684.9 1.4 17.0 1 
1966 56.8 749.9 1.6 20.2 1 
1967 70.1 793.9 1.0 23.4 1 
1968 80.5 865.0 0.8 25.6 1 
1969 81.2 931.4 1.5 24.6 1 
1970 80.3 992.7 1.0 24.8 1 
1971 77.7 1 077.6 1.5 21.7 1 
1972 78.3 1 185.9 2.95 21.5 1 
1973 74.5 1 326.4 4.8 24.3 0 
1974 77.8 1 434.2 10.3 26.8 0 
1975 85.6 1 549.2 16.0 29.5 0 
1976 89.4 1718.0 14.7 30.4 0 
1977 97.5 1 918.3 8.3 33.3 0 
1978 105.2 2 163.9 11.0 38.0 0 
1979 117.7 2 417.8 13.0 46.2 0 
1980 135.9 2 633.1 15.3 57.6 0 
1981 162.1 2 937.7 18.0 68.9 0 

TABLA 7.9 Año Y X2 X3 X4 X5 X6 

Demanda de carne de 

pollo en Estados Unidos, 1960 27.8 397.5 42.2 50.7 78.3 65.8 

1960-1982 1961 29.9 413.3 38.1 52.0 79.2 66.9 
1962 29.8 439.2 40.3 54.0 79.2 67.8 

Euente M osidatos sobrei provic 1963 30.8 459.7 39.5 55.3 79.2 69.6 

ea Ed 1964 31.2 492.9 37.3 54.7 77.4 68.7 

Maine de Estados Unidos. El 1965 223 528.6 38.1 63.7 80.2 73.6 

autor agradece a Robert J. Fisher 1966 35.6 560.3 39.3 69.8 80.4 76.3 

por reunir los datos y el análisis 1967 36.4 624.6 37.8 65.9 83.9 Y 2 

dE 1968 36.7 666.4 38.4 64.5 85.5 78.1 
1969 38.4 717.8 40.1 70.0 93.7 84.7 
1970 40.4 768.2 38.6 IDA 106.1 93.3 
1971 40.3 843.3 39.8 67.8 104.8 89.7 
1972 41.8 911.6 39.7 79.1 114.0 100.7 
1973 40.4 931.1 521l 95.4 124.1 113,5 
1974 40.7 1 021.5 48.9 94.2 127.6 115.3 
1975 40.1 1 165.9 58.3 12885 142.9 1387 
1976 427 1 349.6 57.9 129.9 143.6 139.2 
1977 44.1 1 449.4 56.5 117.6 139.2 132.0 
1978 46.7 15753 63.7 130.9 165.5 28] 
1979 50.6 1 759.1 61.6 129.8 203.3 154.4 
1980 50.1 1 994.2 58.9 128.0 219.6 174.9 
1981 SN 2 258.1 66.4 141.0 221.6 180.8 


1982 529 2 478.7 70.4 168.2 232.6 189.4 


Nota: Los precios reales se obtuvieron al dividir los precios nominales entre el Índice de Precios al Consumidor correspondiente 
a alimentos. 
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Ahora considere las siguientes funciones de demanda: 


ln Y, = 41 +07 In Xz; + &3 In X>, + u, (1) 
In Y, = yı + y2 ln Xz + ys In Xz: + y4 In Xayr + u, (2) 
In Y, = à; + à2 In Xa; + à3 In X3, + à4 In Xs, + u, (3) 
In Y, = 0i + 02 In Xa; + 03 In X3; + 04 1n X4, + 05 In Xs: + ur (4) 
In Y, = B1 + oa n Ry + B3 10 X3, + Ba ln Xó, + u, (5) 


De la teoría microeconómica, se sabe que la demanda de un bien suele depender del in- 
greso real del consumidor, del precio real del bien y de los precios reales de los bienes 
complementarios o que compiten con él. Ante estas consideraciones, responda las siguien- 
tes preguntas. 

a) Entre las funciones de demanda que aquí se dan, ¿cuál escogería y por qué? 

b) ¿Cómo interpretaría los coeficientes de In Xz; y In X3, en estos modelos? 


== 


c) ¿Cuál es la diferencia entre las especificaciones (2) y (4)? 


d) ¿Qué problemas prevé si adopta la especificación (4)? (Sugerencia: Los precios de la 
carne de cerdo y de res se incluyen con el del pollo.) 


e 


== 


Como la especificación (5) incluye el precio compuesto de la carne de res y de cerdo, 
¿preferiría la función de demanda (5) a la función (4)? ¿Por qué? 


f 


— 


¿La carne de cerdo y la de res son productos que compiten con el pollo o que lo susti- 
tuyen? ¿Cómo sabe? 


pa 


Suponga que la función (5) es la de demanda “correcta”. Estime los parámetros de este 
modelo, obtenga sus errores estándar así como R?, R? y R? modificada. Interprete sus 
resultados. 


£ 


h 


S 


Ahora suponga que corre el modelo “incorrecto” (2). Evalúe las consecuencias de esta 
mala especificación considerando los valores de y2 y y3 en relación con 62 y 3, respec- 
tivamente. (Sugerencia: Preste atención al análisis de la sección 7.7.) 


. En un estudio de rotación de empleados en el mercado laboral, James F. Ragan, Jr., obtuvo 


los siguientes resultados para la economía de Estados Unidos de 1950-I a 1979-IV.* (Las 
cifras entre paréntesis son los estadísticos f estimados.) 


n= A O O A E 
(4.28) (25.31) (3.64) (3.10) 
+ 0.80 In Xs,— 0.0055 Xe  R?2=0.5370 
(1.10) (3.09) 


Nota: Estudiaremos los estadísticos ź en el próximo capítulo. 


donde Y = tasa de renuncias laborales en el sector manufacturero, definida como el nú- 
mero de personas que deja su trabajo voluntariamente por cada 100 emplea- 
dos 


X = variable instrumental o “representante” de la tasa de desempleo de hombres 
adultos 


X3 = porcentaje de empleados menores de 25 años 


X4 = N,-1/N;-4 = tasa de empleo en el sector manufacturero, en el trimestre 
(t — 1), respecto de la del trimestre (t — 4) 


X; = porcentaje de mujeres empleadas 
X6 = tendencia de tiempo (1950-1 = 1) 


* Fuente: Véase el artículo de Ragan “Turnover in the Labor Market: A Study of Quit and Layoff Rates”, Eco- 
nomic Review, Federal Reserve Bank of Kansas City, mayo de 1981, pp. 13-22. 


TABLA 7.10 
Demanda de dinero 
en Estados Unidos, 
1980-1998 


Fuente: Economic Report of the 


President, 2000, tablas B-1, B-58, 


B-67 y B-71. 
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a) Interprete los resultados anteriores. 
b) ¿Puede justificarse a priori la relación negativa observada entre los logaritmos de Y y 
X? 
c) ¿Por qué es positivo el coeficiente de In X3? 
d) Como el coeficiente de tendencia es negativo, ¿de qué porcentaje es el descenso tem- 
poral en la tasa de retiro laboral, y por qué se presenta dicho descenso? 
e) ¿Es la R? “muy” baja? 
J) ¿Puede estimar los errores estándar de los coeficientes de regresión a partir de los datos 
dados? ¿Por qué? 


7.21. Considere la siguiente función de demanda de dinero para Estados Unidos durante el pe- 
riodo 1980-1998: 
M = a a 

donde M = demanda real de dinero, de acuerdo con la definición M, de dinero 

Y = PIB real 

r = tasa de interés 
Para estimar la anterior función de demanda de dinero se presentan los datos de la tabla 
7.10. 

Nota: Para convertir cantidades nominales a reales, divida M y PIB entre IPC. No es 
necesario dividir la tasa de interés variable entre el IPC. También tenga en cuenta que se 
proporcionaron dos tasas de interés, una de corto plazo, medida de acuerdo con la tasa de 
interés de los bonos del Tesoro a tres meses, y otra de largo plazo, medida según el rendi- 
miento de los bonos del Tesoro a 30 años, según la línea de estudios empíricos previos que 
emplearon ambos tipos de tasas de interés. 

Observación PIB M2 IPC TILP TITM 
1980 2 795.6 1 600.4 82.4 11.27 11.506 
1981 3131.3 1 756.1 90.9 13.45 14.029 
1982 3 259.2 1911.2 96.5 12.76 10.686 
1983 3 534.9 2 127.8 99.6 11.18 8.630 
1984 3 932.7 2 311.7 103.9 12.41 9.580 
1985 4 213.0 2 497.4 107.6 10.79 7.480 
1986 4 452.9 2 734.0 109.6 7.78 5.980 
1987 4 742.5 2 832.8 113.6 8.59 5.820 
1988 5 108.3 2 995.8 118.3 8.96 6.690 
1989 5 489.1 3 159.9 124.0 8.45 8.120 
1990 5 803.2 3 279.1 130.7 8.61 7.510 
1991 5 986.2 3 379.8 136.2 8.14 5.420 
1992 6 318.9 3 434.1 140.3 7.67 3.450 
1993 6 642.3 3 487.5 144.5 6.59 3.020 
1994 7 054.3 3 502.2 148.2 7.37 4.290 
1995 7 400.5 3 649.3 152.4 6.88 5.510 
1996 7 813.2 3 824.2 156.9 6.71 5.020 
1997 8 300.8 4 046.7 160.5 6.61 5.070 
1998 8 759.9 4 401.4 163.0 5.58 4.810 

Notas: PIB: producto interno bruto (miles de millones de dólares). 


M»: oferta de dinero M2. 

IPC: índice de precios al consumidor. 

TILP: tasa de interés de largo plazo (bonos del Tesoro a 30 años). 
TITM: tasa de interés de los bonos del Tesoro a tres meses (% anual). 
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TABLA 7.11 


Sector industrial griego 


Fuente: El autor está en deuda 
con George K. Zestos, de la 
Christopher Newport University, 
Virginia, por estos datos. 


a) Con los datos anteriores, calcule la función de demanda anterior. ¿Cuáles son las elas- 
ticidades del ingreso y de la tasa de interés de la demanda de dinero? 

b) En lugar de estimar la función demanda anterior, suponga que debe ajustar la función 
(M/Y); = ar? e". ¿Cómo interpretaría los resultados? Muestre los cálculos necesa- 
rios. 

c) ¿Cómo decidiría cuál es la mejor especificación? (Nota: Se ofrece una prueba estadís- 
tica formal en el capítulo 8.) 


7.22. La tabla 7.11 suministra datos sobre el sector manufacturero de la economía griega de 
1961 a 1987. 
a) Vea si la función producción de Cobb-Douglas se ajusta a los datos de la tabla e inter- 
prete los resultados. ¿A qué conclusión general llega? 
b) Ahora considere el siguiente modelo: 
Producción/trabajo = A(K)L)f e" 
donde la variable regresada representa la productividad del trabajo, y la regresora, la 
razón capital-trabajo. ¿Cuál es la importancia económica de dicha relación, si existe 
alguna? Estime los parámetros de este modelo e interprete los resultados. 
Razón 
Observación Producción* Capital Trabajo? capital-trabajo 
1961 35.858 59.600 637.0 0.0936 
1962 37.504 64.200 643.2 0.0998 
1963 40.378 68.800 651.0 0.1057 
1964 46.147 75.500 685.7 0.1101 
1965 51.047 84.400 710.7 0.1188 
1966 53.871 91.800 724.3 0.1267 
1967 56.834 99.900 735.2 0.1359 
1968 65.439 109.100 760.3 0.1435 
1969 74.939 120.700 777.6 0.1552 
1970 80.976 132.000 780.8 0.1691 
1971 90.802 146.600 825.8 0.1775 
1972 101.955 162.700 864.1 0.1883 
1973 114.367 180.600 894.2 0.2020 
1974 101.823 197.100 891.2 0.2212 
1975 107.572 209.600 887.5 0.2362 
1976 117.600 221.900 892.3 0.2487 
1977 123.224 232.500 930.1 0.2500 
1978 130.971 243.500 969.9 0.2511 
1979 138.842 257.700 1 006.9 0.2559 
1980 135.486 274.400 1 020.9 0.2688 
1981 133.441 289.500 1 017.1 0.2846 
1982 130.388 301.900 1 016.1 0.2971 
1983 130.615 314.900 1 008.1 0.3124 
1984 132.244 327.700 985.1 0.3327 
1985 137.318 339.400 977.1 0.3474 
1986 137.468 349.492 1 007.2 0.3470 
1987 135.750 358.231 1 000.0 0.3582 


* Miles de millones de dracmas a precios constantes de 1970. 
t Miles de trabajadores al año. 


Capítulo 7 Análisis de regresión múltiple: el problema de estimación 225 


7.23. Experimento Monte Carlo. Considere el siguiente modelo: 
YA = A ar (1046 =p (pad 32 005 


Le informan que £; = 262, B, = —0.006, B3 = —2.4, 0? = 42 y u; ~ N(0, 42). Genere 10 
conjuntos de 64 observaciones sobre u; a partir de la distribución normal dada y utilice las 
64 observaciones de la tabla 6.4, donde Y = MI, X, = PIBPC, y X; = TAM, para generar 
10 conjuntos de coeficientes $6 estimados (cada conjunto tendrá tres parámetros estima- 
dos). Tome los promedios de todos los coeficientes $ estimados y relaciónelos con los 
verdaderos valores de dichos coeficientes dados arriba. ¿A qué conclusión general llega de 
lo anterior? 


7.24. La tabla 7.12 presenta datos del gasto de consumo real, ingreso real, riqueza real y tasas 
de interés reales de Estados Unidos de 1947 a 2000. Estos datos se volverán a usar en el 
ejercicio 8.35. 

a) Con los datos de la tabla, estime la función de consumo lineal usando los datos de 
Ingreso, riqueza y tasa de interés. ¿Cuál es la ecuación ajustada? 

b) ¿Qué indican los coeficientes estimados sobre las relaciones entre las variables y el 
gasto de consumo? 


TABLA 7.12 Año C Yd Riqueza Tasa de interés 
Gasto de consumo real, 
ingreso real, riqueza real 1947 976.4 1 035.2 5 166.8 —10.351 
y tasas de interés reales 1948 998.1 1 090.0 5 280.8 —4.720 
de Estados Unidos, 1949 1 025.3 1 095.6 5 607.4 1.044 
1947-2000 1950 1 090.9 1192.7 5 7595 0.407 
1951 1 107.1 1 227.0 6 086.1 —5.283 
Fuentes: C, Yd y los índices de 1952 1 142.4 1 266.8 6 243.9 —0.277 
ee e O LE 1197.2 1 327.5 6 355.6 0.561 
da ISA 1 221.9 1 344.0 6 797.0 —0.138 
mico, Departamento de Comercio 1955 1 310.4 1 433.8 7 172.2 0.262 
de Estados Unidos (http://www. 1956 1 348.8 1 502.3 7 375.2 —0.736 
e cos E 1957 1 381.8 1 539.5 7 315.3 —0.261 
los bonos del Tesoro a tres meses: 1958 1 393.0 1 553.7 7 870.0 —0.575 
Economic Report of the Presi- 1959 1 470.7 1 623.8 8 188.1 2.296 
dent, 2002. 1960 1 510.8 1 664.8 8 351.8 1.511 
Riqueza nominal = valor neto 1961 1 541.2 1 720.0 8 971.9 1.296 
N PN CEN SE 1962 1617.3 1 803.5 9 091.5 1.396 
es familiares y organizaciones 
Sains dle Ino Conio de 1963 1 684.0 1 871.5 9 436.1 2.058 
los datos de flujo de fondos de 1964 1 784.8 2 006.9 10 003.4 2.027 
la Reserva Federal; http://www. 1965 1 897.6 2 131.0 10 562.8 2.112 
tederalreserye Boy). 1966 2 006.1 2 244.6 10 522.0 2.020 
1967 2 066.2 2 340.5 11 312.1 1.213 
1968 2 184.2 2 448.2 12 145.4 1.055 
1969 2 264.8 2 524.3 11 672.3 1.732 
1970 2 314.5 2 630.0 11 650.0 1.166 
1971 2 405.2 2 745.3 12 312.9 —0.712 
1972 2 550.5 2 874.3 13 499.9 —0.156 
1973 2 675.9 3 072.3 13 081.0 1.414 
1974 2 653.7 3 051.9 11 868.8 —1.043 
1975 2 710.9 3 108.5 12 634.4 —3.534 
1976 2 868.9 3 243.5 13 456.8 —0.657 


(continúa) 
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TABLA 7.12 Año C Yd Riqueza Tasa de interés 
(continuación) 1977 2 992.1 3 360.7 13 786.3 1.190 
1978 3 124.7 3 527.5 14 450.5 0.113 
1979 3 203.2 3 628.6 15 340.0 1.704 
1980 3 193.0 3 658.0 15 965.0 2.298 
1981 3 236.0 3 741.1 15 965.0 4.704 
1982 3 275.5 3 791.7 16 312.5 4.449 
1983 3 454.3 3 906.9 16 944.8 4.691 
1984 3 640.6 4 207.6 17 526.7 5.848 
1985 3 820.9 4 347.8 19 068.3 4.331 
1986 3 981.2 4 486.6 20 530.0 3.768 
1987 4113.4 4 582.5 21 235.7 2.819 
1988 4 279.5 4 784.1 22 332.0 3.287 
1989 4 393.7 4 906.5 23 659.8 4.318 
1990 4 474.5 5 014.2 23 105.1 3.595 
1991 4 466.6 5 033.0 24 050.2 1.803 
1992 4 594.5 5 189.3 24 418.2 1.007 
1993 4 748.9 5 261.3 25 092.3 0.625 
1994 4 928.1 5 397.2 25 218.6 2.206 
1995 5 075.6 5 539.1 27 439.7 3.333 
1996 5 237.5 5 677.7 29 448.2 3.083 
1997 5 423.9 5 854.5 32 664.1 3.120 
1998 5 683.7 6 168.6 35 587.0 3.584 
1999 5 968.4 6 320.0 39 591.3 3.245 
2000 6 257.8 6 539.2 38 167.7 3.576 


Notas: Año = año calendario. 
C = gasto de consumo real en miles de millones de dólares de 1996 ajustados por la inflación. 
Yd = ingreso disponible personal real en miles de millones de dólares de 1996 ajustados por la inflación. 
Riqueza = riqueza real en miles de millones de dólares de 1996 ajustados por la inflación. 
Interés = rendimiento nominal anual de los bonos del Tesoro a 3 meses, ajustado por la tasa de inflación (medido por el cambio 
porcentual anual en el índice anual de precios, ajustado por la inflación). 


La variable de riqueza nominal real se creó con datos de la medición que realiza la Junta de la Reserva Federal del valor neto a final de 
año de unidades familiares y organizaciones sin fines de lucro en las cuentas del flujo de fondos. El índice de precios con que se convir- 
tió esta variable de riqueza nominal en una variable de riqueza real fue el promedio del índice de precios, ajustado por la inflación, del 
cuarto trimestre del año en curso y el primer trimestre del año siguiente. 


7.25. Estimación de los precios de las acciones de Oualcomm. Como ejemplo de la regresión 
polinomial considere los datos sobre los precios semanales de las acciones de Qualcomm, 
Inc., diseñador y fabricante de aparatos inalámbricos digitales para telecomunicaciones, de 
1995 a 2000. Los datos completos se encuentran en el sitio Web del libro, en la tabla 7.13. 
A finales de la década de 1990, las acciones de las empresas tecnológicas fueron especial- 
mente redituables, pero, ¿qué tipo de modelo de regresión se ajusta mejor a estos datos? 
La figura 7.4 muestra una gráfica elemental de los datos correspondiente a esos años. 

Esta gráfica no se parece a la curva en forma de S alargada; parece haber un ligero au- 
mento en el precio promedio de las acciones, pero luego la tasa se incrementa de manera 
drástica hacia el extremo derecho. A medida que la demanda de teléfonos más especializa- 
dos aumentaba a pasos agigantados y el auge tecnológico seguía su curso, el precio de las 
acciones siguió la tendencia y aumentó a un ritmo mucho más rápido. 

a) Estime un modelo lineal para pronosticar el precio de cierre de las acciones con base 
en el tiempo. ¿Le parece que este modelo se ajusta bien a los datos? 
b) Ahora estime un modelo cuadrático y use tanto el tiempo como el tiempo elevado al 

cuadrado. ¿Obtuvo un mejor ajuste que en a)? 
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FIGURA 7.4 Precio 
Precios de las acciones de 
Qualcomm a través del 
tiempo. 
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11/2/98 F 
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6/14/99 + 

8/9/99 F 

10/4/99 F 
11/29/99 - 


Fecha 


c) Por último, ajuste el siguiente polinomio de tercer grado o cúbico: 
a F A A 


donde Y = precio de las acciones y X = tiempo. ¿Qué modelo parece el mejor estimador 
de los precios de las acciones? 


Apéndice ZA 


7A.1 Derivación de los estimadores de MCO 
dados en las ecuaciones (7.4.3) a (7.4.5) 


Al diferenciar parcialmente la ecuación 
Ya = YOO — Êi — ÊX — ÊXs:) (7.4.2) 


respecto de las tres incógnitas e igualar a cero las ecuaciones resultantes, obtenemos 


IN Ah A 
2 â; = 2020 = PIS B20 => BsAs (SM) 0 


aĝi 
Iy ù R A z 
= = 2% — Êi — PoXas — Bs XX) = 0 
2 
y 2? aoa A 5 
— =2 F0; -Âi — Xai — aX Ka) = 0 
4 


Simplificamos lo anterior y obtenemos las ecuaciones (7.4.3) a (7.4.5). 
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A propósito, observe que las tres ecuaciones anteriores también se escriben como 


Yast 


de 4¡Xo; =0 (¿Por qué?) 


lo cual muestra que las propiedades de los mínimos cuadrados se ajustan, es decir, que los residuos suman 
cero y que no están correlacionados con las variables explicativas X2 y 45. 

Por cierto, observe que para obtener los estimadores de MCO del modelo de regresión lineal de k varia- 
bles (7.4.20) se procede análogamente. Así, primero escribimos 


Ya = YOO — Br — ÊX — +00 ÊX) 


Diferenciamos esta expresión parcialmente respecto de cada incógnitas k, igualamos a cero las ecuaciones 
resultantes y reorganizamos para obtener las siguientes k ecuaciones normales con k incógnitas: 


Yr =nĝi +Ê Y Xn + Ês Y Xai +--+ br Xu 
E Y, Xz; = Bi Do +Ê) X; + Ê; X XXa +- + Êr Y Xi Xu 


Y nio = Bs S La + Ba Y XX + Bs Da ++ Br Y Xd 


Y YX = Êi X Xu + Ba X Xi + Ês X AX +- BD Xh 


O, si cambiamos a letras minúsculas, estas ecuaciones se expresan como 
A TE r 

> e = Ba X x3; + B3 ` X2iX3i + --- + Br ) X2iXki 
A A 2 A 

` YiX3i = Ba > X2X3; + B3 > y ae oo e ele ) X3iXki 


YO yin = f, Y 2d + Ês Y xarxa ++ Yo 


Debe observar, además, que el modelo de k variables satisface también estas ecuaciones: 


Yoi = 
Doo =Y i =e = Done =0 
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7A.2 Igualdad entre los coeficientes del PIBPC 
en las ecuaciones (7.3.5) y (7.6.2) 
Sea Y = MI, X, = PIBPC y X; = TAM, y al utilizar la forma de desviación, se tiene 
Me = Mv == (1) 
Xoj = b23X3; + Un; (2) 


Ahora efectuamos la regresión en 21 sobre ĉ2 para obtener: 


(para este ejemplo) (3) 


Observe que, en vista de que las 4 son residuos, sus valores medios son cero. Con (1) y (2), (3) se expresa 
como 


z X Oi = b13x3i)(x2; — b23x3i) 


a 4 
i Na — b23x3:)7 a 
Expanda la expresión anterior y observe que 
Y X2iX3i 
b = 5 
e (5) 
y 
Y yix 
bis = ===> 6 
O (6) 
Al hacer esas sustituciones en (4), obtenemos 
2 
> YiX2i X3¡) — YiX3i X2iX3i 
p- (Ey) (23) - (Eva) Ear) a 


(E a) È sa) = B a) 
= —0.0056 (para este ejemplo) 


7A.3 Derivación de la ecuación (7.4.19) 


Recuerde que 
a = Y — Bi — PrXos — B3X3; 
que también se escribe como 
û; = yi — Pax — baxo; 


donde las letras minúsculas, como es usual, indican desviaciones respecto de los valores de la media. 
Ahora, 


Da =Y (e) 
= Ns — Bara — B3xai) 


= y 
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donde se aprovecha que Y ûĉ;xz; = » 4x3; = 0. (¿Por qué?) También 


Ny = Sy = yb = Paxas = B3x31) 


es decir, 


y = ‘Dy - Ê Do — ĝ; D (7.4.19) 


que es el resultado requerido. 


7A.4 Estimación de máxima verosimilitud 
del modelo de regresión múltiple 


Con la extensión de las ideas presentadas en el capítulo 4, apéndice 4A, escribimos la función log de vero- 
similitud para el modelo de regresión lineal con k variables (7.4.20) como 


n 2 75 LO (Y; — pi — BrXo; — -+ — BX ki) 
lil, = zoo z aUe) DE 07 
Diferenciamos esta función parcialmente respecto de 61, Bo, - - . , Br y o°, y obtenemos las siguientes 


(K + 1) ecuaciones: 


ðL 1l 


i P2 NC i = oA i = n = BrXri NS) (1) 
T J a Y = Br BaXa — 000 PiX Xx) (2) 
eS z 5 YO = n = o = a = N E (K) 

— = a E 5 0 Bi — Bo Xni => BiXuY (K+ 1) 


Al igualar estas ecuaciones a cero (la condición de primer orden para optimización) y definir 1, B2,..., 
Bx y 0? como estimadores de MV, obtenemos, después de simples manipulaciones algebraicas, 


NN Y =nB1 + pY Xi + >>> + Br Xu 


Y TX = 81 Ao + BG + E A 


que son precisamente las ecuaciones normales de la teoría de mínimos cuadrados, como se ve en el apén- 
dice 7A, sección 7A.1. Por consiguiente, los estimadores de MV, los B, son los mismos que los estimado- 
res de MCO, los B, dados antes. Pero, como mencionamos en el capítulo 4, apéndice 4A, esta igualdad no es 
accidental. 

Sustituimos los estimadores de MV (= MCO) en la ecuación número (K + 1) recién dada y obtenemos, 
después de simplificar, el siguiente estimador de MV de a? 


-iDo Bi = PaXaj = -+ — PeX ri) 


-5i 


Como se anotó en el texto, este estimador difiere del estimador de MCO 6? = ) 22) (n — k). Y, como el 
último es un estimador insesgado de o°, esta conclusión implica que el estimador de MV 3? es sesgado. 
Pero, como se verifica fácilmente, asintóticamente, 9? es también insesgado. 
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7A.5 Listado de EViews de la función de producción 
Cobb Douglas de la ecuación (7.9.4) 


Variable dependiente: Y1 
Método: Mínimos cuadrados 
Observaciones incluidas: 51 


Coeficiente Error estándar Estadístico t Prob. 

(E 3.887600 0.396228 9.811514 0.0000 
Y2 0.468332 0.098926 4.734170 0.0000 
Y3 0.521279 0.096887 5.380274 0.0000 
R al cuadrado 0.964175 Media de la var. dependiente 16.94139 

R al cuadrado ajustada 0.962683 E.E. var. dependiente 1.380870 

E.E. de la regresión 0.266752 Criterio de inform. Akaike 0.252028 

Suma de cuadrados de residuos 3.415520 Criterio Schwarz 0.365665 

Log verosimilitud —3.426721 Criterio Hannan-Quinn 0.295452 

Estadístico F 645.9311 Est. Durbin-Watson 1.946387 

Prob. (estadístico F) 0.000000 


Covarianza de estimados 


C Y2 Y3 

E 0.156997 0.010364 —0.020014 

Y2 0.010364 0.009786 —0.009205 

YES —0.020014 —0.009205 0.009387 
Y X2 X3 Y1 Y2 Y3 Y1SOMBRERO Y1RESID 
38 372 840 424 471 2 689 076 17.4629 12.9586 14.8047 17.6739 -0.2110 
1 805 427 19 895 57 997 14.4063 9.8982 10.9681 14.2407 0.1656 
23736 129 206 893 2 308 272 16.9825 12.2400 14.6520 17.2577 0.2752 
26 981 983 304 055 1376 235 17.1107 12.6250 14.1349 17.1685 0.0578 
217 546 032 1809 756 13554 116 19.1979 14.4087 16.4222 19.1962 0.0017 
19 462 751 180 366 1790 751 16.7840 12.1027 14.3981 17.0612 0.2771 
28 972 772 224 267 1210 229 17.1819 12.3206 14.0063 16.9589 0.2229 
14313 157 54 455 421 064 16.4767 10.9051 12.9505 15.7457 0.7310 
159 921 2 029 7 188 11.9824 7.6153 8.8802 12.0831 -0.1007 
47 289 846 471 211 2 761 281 17.6718 13.0631 14.8312 17.7366 0.0648 
63015125 659 379 3 540 475 17.9589 13.3991 15.0798 18.0236 0.0647 
1 809 052 17 528 146 371 14.4083 9.7716 11.8939 14.6640 0.2557 
10511 786 75414 848 220 16.1680 11.2307 13.6509 16.2632 0.0952 
105 324 866 963 156 5 870 409 18.4726 13.7780 15.5854 18.4646 0.0079 
90 120 459 835 083 5 832 503 18.3167 13.6353 15.5790 18.3944 0.0778 
39 079 550 336 159 1795 976 17.4811 12.7253 14.4011 17.3543 0.1269 
22 826 760 246 144 1595118 16.9434 12.4137 14.2825 17.1465 0.2030 
38 686 340 384 484 2 503 693 17.4710 12.8597 14.7333 17.5903 -0.1193 
69 910 555 216 149 4 726 625 18.0627 12.2837 15.3687 17.6519 0.4109 
7 856 947 82 021 415 131 15.8769 11.3147 12.9363 15.9301 0.0532 
21 352 966 174 855 1729116 16.8767 12.0717 14.3631 17.0284 -0.1517 
46 044 292 355 701 2 706 065 17.6451 12.7818 14.8110 17.5944 0.0507 
92 335 528 943 298 5 294 356 18.3409 13.7571 15.4822 18.4010 0.0601 
48 304 274 456 553 2833525 17.6930 13.0315 14.8570 17.7353 0.0423 
17 207 903 267 806 1 212 281 16.6609 12.4980 14.0080 17.0429 0.3820 
47 340 157 439 427 2 404 122 17.6729 12.9932 14.6927 17.6317 0.0411 


(continúa) 
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(continuación) 
Y X2 X3 Y1 Y2 Y3 Y1SOMBRERO Y1RESID 
2 644 567 24 167 334 008 14.7880 10.0927 12.7189 15.2445 0.4564 
14 650 080 163 637 627 806 16.5000 12.0054 13.3500 16.4692 0.0308 
7 290 360 59 737 522 335 15.8021 10.9977 13.1661 15.9014 0.0993 
9188 322 96 106 507 488 16.0334 11.4732 13.1372 16.1090 0.0756 
51 298 516 407 076 3 295 056 17.7532 12.9168 15.0079 17.7603 0.0071 
20 401 410 43 079 404 749 16.8311 10.6708 12.9110 15.6153 1.2158 
87 756 129 727 177 4 260 353 18.2901 13.4969 15.2649 18.1659 0.1242 
101 268 432 820 013 4 086 558 18.4333 13.6171 15.2232 18.2005 0.2328 
3 556 025 34 723 184 700 15.0842 10.4552 12.1265 15.1054 —0.0212 
124 986 166 1174 540 6 301 421 18.6437 13.9764 15.6563 18.5945 0.0492 
20 451 196 201 284 1327 353 16.8336 12.2125 14.0987 16.9564 0.1229 
34 808 109 257 820 1 456 683 17.3654 12.4600 14.1917 17.1208 0.2445 
104 858 322 944 998 5896 392 18.4681 13.7589 15.5899 18.4580 0.0101 
6 541 356 68 987 297 618 15.6937 11.1417 12.6036 15.6756 0.0181 
37 668 126 400 317 2 500 071 17.4443 12.9000 14.7318 17.6085 0.1642 
4 988 905 56 524 311 251 15.4227 10.9424 12.6484 15.6056 -0.1829 
62 828 100 582 241 4 126 465 17.9559 13.2746 15.2329 18.0451 0.0892 
172 960 157 1 120 382 11 588 283 18.9686 13.9292 16.2655 18.8899 0.0786 
15 702 637 150 030 762 671 16.5693 11.9186 13.5446 16.5300 0.0394 
5418 786 48 134 276 293 15.5054 10.7817 12.5292 15.4683 0.0371 
49 166 991 425 346 2731 669 17.7107 12.9607 14.8204 17.6831 0.0277 
46 164 427 313 279 1 945 860 17.6477 12.6548 14.4812 17.3630 0.2847 
9185 967 89 639 685 587 16.0332 11.4035 13.4380 16.2332 0.2000 
66 964 978 694 628 3 902 823 18.0197 13.4511 15.1772 18.0988 0.0791 
2 979 475 15 221 361 536 14.9073 9.6304 12.7981 15.0692 —0.1620 


Notas: Y1 = ln Y; Y2 = In X2; Y3 = ln X3. 
Los valores propios son 3.7861 y 187 5269, que se usarán en el capítulo 10. 


Capítulo 


Análisis de 
regresión múltiple: 
el problema 

de la inferencia 


En este capítulo, continuación del 5, se amplían las ideas desarrolladas sobre estimación por 
intervalos y pruebas de hipótesis a modelos con tres o más variables. Aunque en muchas formas 
los conceptos del capítulo 5 se aplican directamente al modelo de regresión múltiple, estos mo- 
delos poseen algunas características adicionales únicas y, por tanto, recibirán más atención. 


8.1 Una vez más, el supuesto de normalidad 


Como ya sabemos, si el único objetivo es la estimación puntual de los parámetros de los modelos 
de regresión, basta el método de mínimos cuadrados ordinarios (MCO), que no hace supues- 
tos sobre la distribución de probabilidad de las perturbaciones u;. Sin embargo, si el objetivo no 
sólo es la estimación sino además la inferencia, entonces, como vimos en los capítulos 4 y 5, 
debemos suponer que las u; siguen alguna distribución de probabilidad. 

Por las razones ya expresadas, supusimos que las u; seguían la distribución normal con media 
cero y varianza constante 0?. Se mantiene el mismo supuesto para los modelos de regresión 
múltiple. Con el supuesto de normalidad y el análisis de los capítulos 4 y 7 se halla que los 
estimadores de MCO de los coeficientes de regresión parcial, idénticos a los estimadores de 
máxima verosimilitud (MV), son los mejores estimadores lineales insesgados (MELI).! Además, 
los estimadores Ba, Bs y Bi están, ellos mismos, normalmente distribuidos con medias iguales 
a los verdaderos f», B3 y 61, y con las varianzas dadas en el capítulo 7. Además, (n — 3)6?/0? 
sigue la distribución x? con n — 3 gl, y los tres estimadores de MCO están distribuidos inde- 
pendientemente de 6?. Las pruebas son similares a las del caso de dos variables estudiado en el 
apéndice 3A, sección 3A. Como resultado y a partir del capítulo 5, se puede demostrar que, al 


1 Con el supuesto de normalidad, los estimadores de MCO Ba, B3 y ĝi son de varianza mínima en toda 

la clase de estimadores insesgados, sean lineales o no. En resumen, son MEI (mejores estimadores insesga- 
dos). Véase C.R. Rao, Linear Statistical Inference and Its Applications, John Wiley & Sons, Nueva York, 1965, 
p. 258. 
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reemplazar 0? por su estimador insesgado 0? en el cálculo de los errores estándar, cada una de 
las siguientes variables 


Êi — Pı 

p= = 8.1.1 
ee (£1) s i 
Ba — Ba 

{= = 8.1.2 
ee (f2) : ) 
Ê — Ba 

{= = 8.1.3 
ee (f3) i l 


sigue la distribución £ con n — 3 gl. 

Observe que los gl son ahora n — 3 porque, al calcular X` ù? y, por consiguiente, ĉ?, se ne- 
cesita primero estimar los tres coeficientes de regresión parcial, lo cual impone por tanto tres 
restricciones sobre la suma de cuadrados residual (SCR) (según esta lógica, en el caso de cua- 
tro variables habrá n — 4 gl, y así sucesivamente). Por consiguiente, la distribución ź sirve para 
establecer intervalos de confianza y para probar hipótesis estadísticas sobre los verdaderos 
coeficientes de regresión parcial poblacionales. De modo similar, con la distribución x? se prue- 
ban hipótesis sobre el verdadero 0?. Para demostrar el mecanismo real utilizaremos el siguiente 
ejemplo ilustrativo. 


EJEMPLO 8.1 

De nuevo, el ejem- 
plo de la mortalidad 
infantil 


En el capítulo 7 efectuamos la regresión de la mortalidad infantil (MI) sobre el PIB per cápita 
(PIBPC) y la tasa de alfabetización de las mujeres (TAM) para una muestra de 64 países. Los re- 
sultados de la regresión de (7.6.2) se reproducen a continuación, con información adicional: 


Ml¡=263.6416 — 0.0056PIBPC; — 2.2316 TAM; 
ee= (11.5932) (0.0019) (0.2099) 
E SA (-10.6293) (8.1.4) 
valor p= (0.0000) (0.0065) (0.0000) 


R? = 0.7077 R? = 0.6981 


donde * denota un valor extremadamente bajo. 

En la ecuación (8.1.4) seguimos el formato que se presentó en la ecuación (5.11.1), donde 
las cifras en el primer conjunto de paréntesis son los errores estándar estimados, las del segundo 
conjunto son los valores t según la hipótesis nula de que el coeficiente de la población relevante 
tiene un valor de cero, y los del tercer conjunto son los valores p estimados. También se dan los 
valores R? y R? ajustada. Ya interpretamos esta regresión en el ejemplo 7.1. 

¿Y la significancia estadística de los resultados observados? Considere por ejemplo el coefi- 
ciente del PIBPC (—0.0056). ¿Es estadísticamente significativo este coeficiente, es decir, es esta- 
dísticamente diferente de cero? Asimismo, ¿es estadísticamente significativo el coeficiente de la 
TAM de —2.23167? ¿Ambos coeficientes son estadísticamente significativos? Para responder ésta 
y otras preguntas relacionadas, primero consideremos las clases de pruebas de hipótesis que se 
pueden encontrar en el contexto del modelo de regresión múltiple. 


8.2 Pruebas de hipótesis en regresión múltiple: 


comentarios generales 


Una vez fuera del mundo simple del modelo de regresión lineal con dos variables, las pruebas de 
hipótesis adquieren diversas e interesantes formas, como las siguientes: 


1. Pruebas de hipótesis sobre un coeficiente de regresión parcial individual (sección 8.3). 

2. Pruebas de significancia global del modelo de regresión múltiple estimado, es decir, ver si 
todos los coeficientes de pendiente parciales son iguales a cero al mismo tiempo (sección 
8.4). 
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3. Pruebas de que dos o más coeficientes son iguales a otro (sección 8.5). 

4. Pruebas de que los coeficientes de regresión parcial satisfacen ciertas restricciones (sección 
8.6). 

5. Pruebas de la estabilidad del modelo de regresión estimado a través del tiempo o en diferentes 
unidades de corte transversal (sección 8.7). 

6. Pruebas sobre la forma funcional de los modelos de regresión (sección 8.8). 


Como el uso de este tipo de pruebas es tan frecuente en el análisis empírico, dedicamos una 
sección a cada tipo. 


8.3 Pruebas de hipótesis sobre coeficientes de 
regresión individuales 


Con el supuesto que u; ~ N(0, o°), entonces, como se observó en la sección 8.1, podemos utilizar 
la prueba f para demostrar una hipótesis sobre cualquier coeficiente de regresión parcial indivi- 
dual. Para ilustrar el procedimiento considere la regresión sobre la mortalidad infantil (8.1.4). 
Postulemos que 


Hi:fB2=0 y  HiP2A0 


La hipótesis nula establece que, al mantener constante X; (la tasa de alfabetización de las mu- 
jeres), X (PIBPC) no tiene influencia (lineal) sobre Y (la mortalidad infantil).? Para probar la 
hipótesis nula se utiliza la prueba £ dada en (8.1.2). Según el capítulo 5, si el valor de £ calculado 
excede el valor de f crítico en el nivel de significancia escogido, se rechaza la hipótesis nula; de 
lo contrario, no se puede rechazar. Para el ejemplo ilustrativo, con (8.1.2) y la advertencia de que 
B2= 0 con la hipótesis nula, tenemos 
[= E = —2.8187 (8.3.1) 
0.0020 

como se muestra en la ecuación (8.1.4). 

Note que tenemos 64 observaciones. Por tanto, los grados de libertad en este ejemplo son 61 
(¿por qué?). Si se consulta la tabla £, en el apéndice D, no contamos con los datos correspon- 
dientes a los 61 gl. Lo más cercano que tenemos es para 60 gl. Si utilizamos esa información y 
suponemos g, el nivel de significancia (es decir, la probabilidad de cometer un error de tipo I) de 
5%, el valor crítico f es 2.0 para una prueba de dos colas (busque t,y2 para 60 gl), o 1.671 para la 
prueba de una cola (busque tą para 60 gl). 

Para este ejemplo, la hipótesis alterna es bilateral. Por consiguiente, utilizamos el valor £ de 
dos colas. Como el valor £ calculado de 2.8187 (en términos absolutos) excede el valor crítico t 
de 2, rechazamos la hipótesis nula de que el PIBPC no tiene ningún efecto sobre la mortalidad 
infantil. En términos más positivos, si se mantiene constante la tasa de alfabetización de las mu- 
jeres, el PIB per cápita tiene un efecto significativo (negativo) sobre la mortalidad infantil, como 
se esperaría a priori. De forma gráfica, la situación es la de la figura 8.1. 

En la práctica, no se tiene que suponer un valor particular de q para llevar a cabo la prueba de 
hipótesis. Tan sólo se emplea el valor p dado en (8.1.4), que en el caso actual es de 0.0065. La 
interpretación de este valor p (es decir, el nivel exacto de significancia) es que si la hipótesis nula 
fuese verdadera, la probabilidad de obtener un valor f igual a 2.8187 o mayor (en términos ab- 
solutos) sería de sólo 0.0065 o 0.65%, que de hecho es una probabilidad pequeña, mucho menor 
que el valor artificialmente adoptado de æ = 5%. 


2 En la mayoría de las investigaciones empíricas, la hipótesis nula se plantea de esta forma, es decir, tomando 
la posición extrema (una especie de espantapájaros) de que no hay relación entre la variable dependiente 

y la variable explicativa en consideración. La idea aquí, para empezar, es encontrar si la relación entre las dos 
es trivial. 
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FIGURA 8.1 
Intervalo de confianza a 
95% para t (60 gl). 


fe) 


pS 

3 

ES 

Kel 

5 95% . i 

A | Región Región de aceptación Región crítica, 
crítica, 2.5% 


2.5% 


-2.0 0 +2.0 


Este ejemplo es una oportunidad para decidir si deseamos utilizar la prueba £ de una o dos 
colas. Como, a priori, se espera que la mortalidad infantil y el PIB per cápita estén negativamente 
relacionados (¿por qué?), se debe utilizar la prueba de una cola. Es decir, las hipótesis nula y 
alterna deben ser: 


Ho: P2<0 y Hi: f2 > 0 


Como el lector ya sabe, podemos rechazar la hipótesis nula con base en la prueba £ de una cola, 
en este caso. Si rechazamos la hipótesis nula en una prueba bilateral, contaremos con pruebas 
suficientes para rechazar el escenario unilateral siempre que el estadístico esté en la misma di- 
rección que la prueba. 

En el capítulo 5 se observó una conexión muy estrecha entre las pruebas de hipótesis y la 
estimación por intervalos de confianza. Para este ejemplo, el intervalo a 95% de confianza para 
Bo es 


Ba — tap ee (Ba) < Pa < Ba + tay eel ba) 


que para este ejemplo se convierte en 
0.0056 — 2(0.0020) < 2 < —0.0056 + 2(0.0020) 
es decir, 
—0.0096 < 2 < —0.0016 (8.3.2) 


o sea, el intervalo de —0.0096 a —0.0016 incluye al verdadero coeficiente 62, con un coeficiente 
de confianza de 95%. Por tanto, si se seleccionan 100 muestras de tamaño 64 y se forman 100 
intervalos de confianza como el (8.3.2), esperamos que 95 de ellos contengan al verdadero pa- 
rámetro de población 62. Como el intervalo (8.3.2) no incluye el valor cero de la hipótesis nula, 
rechazamos tal hipótesis (que el verdadero $, es cero con 95% de confianza). 

Por consiguiente, si se utiliza la prueba £ de significancia como en (8.3.1) o la estimación por 
intervalos de confianza como en (8.3.2), se llega a la misma conclusión. No obstante, esto no 
debe sorprender en vista de la estrecha relación entre la estimación por intervalos de confianza y 
las pruebas de hipótesis. 

Según el procedimiento recién descrito se prueba la hipótesis respecto de otros parámetros 
del modelo de regresión para la mortalidad infantil. Los datos necesarios ya se proporcionaron 
en la ecuación (8.1.4). Por ejemplo, suponga que deseamos probar la hipótesis de que la tasa 
de alfabetización de las mujeres, si se mantiene constante la influencia del PIBPC, no tiene efecto 
alguno sobre la mortalidad infantil. Podemos rechazar con confianza esta hipótesis, pues, según 
esta hipótesis nula el valor p, al obtener un valor £ absoluto igual o mayor que 10.6, es práctica- 
mente cero. 

Antes de continuar, recuerde que el procedimiento de la prueba ż se basa en el supuesto de que 
el término de error u; sigue una distribución normal. Aunque u;no se puede observar de manera 


FIGURA 8.2 
Histograma de los re- 
siduos de la regresión 
(8.1.4). 
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10 
5 Serie: Residuos 

Muestra 1 64 

8r Observaciones 64 

Ap Media -4.95 x 10714 
Mediana 0.709227 
Máximo 96.80276 

4L Mínimo -84.26686 
Desv. est. 41.07980 
Asimetría 0.227575 

2 Curtosis 2.948855 
Jarque-Bera 0.559405 

0 Probabilidad 0.756009 


directa, se observa su representante, 1 ;, es decir, los residuos. Para la regresión sobre la mortali- 
dad, el histograma de los residuos se muestra en la figura 8.2. 

A partir del histograma, parece que los residuos están normalmente distribuidos. También 
podemos calcular la prueba Jarque-Bera (JB) de normalidad, como se muestra en la ecuación 
(5.12.1). En este caso, el valor JB es 0.5594, con un valor p de 0.76.? Por tanto, al parecer, el tér- 
mino de error en este ejemplo sigue la distribución normal. Por supuesto, se debe tener en cuenta 
que la prueba JB es para muestras grandes, y que la muestra de 64 observaciones pueda no ser 
necesariamente grande. 


8.4 Prueba de significancia general de la regresión muestral 


En la sección anterior abordamos la prueba de significancia de los coeficientes de regresión par- 
cial estimados individualmente, es decir, según la hipótesis separada de que cada verdadero coefi- 
ciente de regresión parcial de la población era cero. Pero ahora considere la siguiente hipótesis: 


Ho: B2 = b= 0 (8.4.1) 


Esta hipótesis nula es una hipótesis conjunta de que 62y 3 son iguales a cero en forma conjunta 
o simultánea. Una prueba de tal hipótesis se denomina prueba de significancia general de la 
línea de regresión observada o estimada, es decir, si Y está relacionada o no linealmente con X> 
y X3 a la vez. Ñ Ñ 

¿Es demostrable la hipótesis conjunta en (8.4.1) al probar la significancia de 2 y £3 indivi- 
dualmente, como en la sección 8.3? La respuesta es no, y el razonamiento es el siguiente: 

Al probar la significancia individual de un coeficiente de regresión parcial observado en 
la sección 8.3, supusimos implícitamente que cada prueba de significancia se basaba en una 
muestra diferente (es decir, independiente). Así, en la prueba de significancia de f2 según la 
hipótesis de que £2 = 0, supusimos tácitamente que la prueba se basaba en una muestra diferente 
de la utilizada en la prueba de significancia de $3 conforme a la hipótesis nula de que $3 = 0. 
Pero para probar la hipótesis conjunta de (8.4.1), si empleamos los mismos datos muestrales, 
violaremos el supuesto del procedimiento de pruebas.* El asunto puede plantearse de otra forma: 


3 Para este ejemplo, el valor de asimetría es de 0.2276, y el de curtosis, de 2.9488. Recuerde que para una 
variable normalmente distribuida los valores de asimetría y curtosis son O y 3, respectivamente. 

4 En cualquier muestra dada la cov ($2, $3) puede no ser cero; es decir, $2 y $3 pueden estar correlacionadas. 
Véase (7.4.17.) 
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en (8.3.2) establecimos un intervalo de confianza a 95% para £2. Pero si utilizamos los mismos 
datos muestrales para establecer un intervalo de confianza para $3, es decir, con un coeficiente 
de confianza de 95%, no es posible asegurar que 62y $3 se encuentren dentro de sus respectivos 
intervalos de confianza con una probabilidad de (1 — œ)(1 — œ) = (0.95)1(0.95). 

En otras palabras, aunque las afirmaciones 


Pr [ĝ> — tajo ce(B2) < b2 < f2 + tap ee (ĝ2)] = 1 — a 
Pr [ĝ; — tajpee(B3) < B3 < Ês + taj ee (ĝ3)] = 1 — a 


son individualmente ciertas, no es cierto que la probabilidad de que £2 y $3 se encuentren al 
mismo tiempo en los intervalos 


[62 + tur ec (B2), Ês + tap ee (Ê5)] 


sea (1 — a), porque los intervalos pueden no ser independientes cuando se derivan con la misma 
información. Para plantear el asunto de otra forma, 


. . . probar una serie de hipótesis simples [individuales] no equivale a probar las mismas hipótesis 
en forma conjunta. La razón intuitiva para esto es que, en una prueba conjunta de varias hipótesis, 
cualquier hipótesis simple se ve “afectada” por la información de las demás hipótesis. 


El resultado final del argumento anterior es que, para un ejemplo dado (muestra), sólo se 
obtiene un intervalo de confianza o una prueba de significancia. ¿Cómo, entonces, probar la hi- 
pótesis nula simultánea de que $2 = ß3 = 0? En seguida responderemos esta pregunta. 


El método del análisis de varianza en las pruebas de significancia 
general de una regresión múltiple observada: la prueba F 
Por las razones recién explicadas, no podemos utilizar la prueba £ usual para probar la hipótesis 
conjunta de que los verdaderos coeficientes parciales de pendiente sean simultáneamente iguales 
a cero. Sin embargo, esta hipótesis conjunta se prueba con la técnica del análisis de varianza 
(ANOVA), presentada en la sección 5.9, lo cual se demuestra de la siguiente manera. 

Recuerde la identidad 


Y y? sÂ Y ra + A a + (8.4.2) 


SCT = SCE + SCR 


SCT tiene, como es usual, n — 1 gl, y SCR tiene n — 3 gl, por las razones ya expuestas. SCE tiene 
2 gl, pues es función de 6» y f3. Por consiguiente, según el procedimiento ANOVA estudiado en 
la sección 5.9, se elabora la tabla 8.1. 

Ahora puede demostrarse? que, según el supuesto de la distribución normal para w; y la hipó- 
tesis nula 62 = f63= 0, la variable 


pl yaa + Ês X yixs)/2 _ SCE/gl 
y N2/m-3) ~ SCR/gl 


(8.4.3) 


se distribuye como la distribución F con 2 y n — 3 gl. 


5 Thomas B. Fomby, R. Carter Hill y Stanley R. Johnson, Advanced Econometric Methods, Springer-Verlag, 
Nueva York, 1984, p. 37. 

é Véase K. A. Brownlee, Statistical Theory and Methodology in Science and Engineering, John Wiley & Sons, 
Nueva York, 1960, pp. 278-280. 


TABLA 8.1 

Tabla ANOVA para la 
regresión con tres 
variables 


TABLA 8.2 
Resumen del 
estadístico F 
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Origen de la variación SC gl SCM 

Debido a la regresión (SCE) Ba S yiX2i + B Y Yi X3; 2 f2} Yižəi 5 B3 2 Vi ž3i 
(12 

Debido a residuos (SCR) No? n-3 de = ar 


Total Ey n—1 


¿Qué utilidad puede tener la razón F anterior? Puede demostrarse” que, según el supuesto de 
que los u; ~ M(0, o°), 


-2 
paa E(6?) =0? (8.4.4) 
n-3 
Con el supuesto adicional que 6, = $3 = O se demuestra que 


E(B» Y yx + És Y) vixz) A (8.4.5) 
a 4. 


Por consiguiente, si la hipótesis nula es verdadera, las ecuaciones (8.4.4) y (8.4.5) proporcionan 
estimaciones idénticas del verdadero o°. Esta afirmación no debe sorprender, pues, si existe una 
relación trivial entre Y y X2 y X3, la única fuente de variación en Y se debe a las fuerzas aleatorias 
representadas por u;. Sin embargo, si la hipótesis nula es falsa, es decir, si X y X; definitivamente 
ejercen influencia sobre Y, no se mantendrá la igualdad entre (8.4.4) y (8.4.5). En este caso, la 
SCE será relativamente más grande que la SCR, teniendo en cuenta sus respectivos gl. Por con- 
siguiente, el valor F de (8.4.3) proporciona una prueba de la hipótesis nula de que los verdaderos 
coeficientes de pendiente son simultáneamente cero. Si el valor F calculado de (8.4.3) excede el 
valor F crítico de la tabla F en el nivel de significancia de a%, se rechaza Ho; de otra forma no se 
rechaza. Por otra parte, si el valor p del F observado es lo bastante bajo, podemos rechazar Ho. 

La tabla 8.2 resume la prueba F. De regreso al ejemplo ilustrativo, obtenemos la tabla ANOVA, 
como se muestra en la tabla 8.3. 


Hipótesis nula Hipótesis alternativa Región crítica. 
Ho Hı Se rechaza Ho si 
2 
rA 2 2 1 
oi =05 oi > 0; => Fo,ñngl, dal 
2 
S 2 
2 2 2 1 
SO oi 70, pa” Fa/2,ngl, dal 
2 
O < Fai —a/2),ngl, dgl 
Notas: 
l. o? y 0 son las dos varianzas poblacionales. 
2. s y 5 son las dos varianzas muestrales. 
3. n glyd gl denotan, respectivamente, el numerador y el denominador gl. 
4. Al calcular la razón F, coloque el valor S? más grande en el numerador. 
5. Los valores críticos F se dan en la última columna. El primer subíndice de F es el nivel de significancia, y los siguientes son los gl 


del numerador y del denominador. 
. Observe que Fa-a/2)ngldgi = 1/Fa/2,del.ngl- 


om 


7 Véase K. A. Brownlee, Statistical Theory and Methodology in Science and Engineering, John Wiley & Sons, 
Nueva York, 1960, pp. 278-280. 
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TABLA 8.3 

Tabla ANOVA para el 
ejemplo de mortalidad 
infantil 


Origen de la variación SC gl SCM 
Debido a la regresión 257 362.4 2 128 681.2 
Debido a residuos 106 315.6 61 1 742.88 
Total 363 678 63 
Con (8.4.3) obtenemos 

128 681.2 

= 3100 = 73.8325 8.4.6 
1 742.88 ( ) 


El valor p, al obtener un valor F igual o mayor que 73.8325, es casi cero, lo cual implica el 
rechazo de la hipótesis que establece que el PIBPC y la TAM, conjuntamente, no tienen efecto 
sobre la mortalidad infantil. Si empleamos el nivel usual de significancia de 5%, el valor F crítico 
para 2 gl en el numerador y 60 gl en el denominador (sin embargo, los gl reales son 61) es de casi 
3.15, o de 4.98 más o menos, si utiliza el nivel de significancia de 1%. Obvio, el valor observado 
F de casi 74 excede por mucho cualquiera de estos valores críticos F. 

El procedimiento de prueba F se generaliza de la siguiente manera. 


Prueba de significancia general de una regresión múltiple: 


la prueba F 


Regla de decisión 


Con el modelo de regresión con k variables: 


Para probar la hipótesis 


Hı: no todos los coeficientes de pendiente son simultáneamente cero 


calcule 


ha n= (=> 0. = 4. =0 


(es decir, todos los coeficientes de pendiente son simultáneamente cero) frente a 


_ SCE/gl  SCE/(k—1) 


= SCR/gl  SCR/(n—k) 


Yi =B1+B2X2 + B3 X3i +-+- + BkXki + Ui 


(8.4.7) 


si F > Fe (k — 1, n — k), rechace Ho; de lo contrario, no la rechace, donde Fą(k — 1, n — k) es el 
valor F crítico en el nivel de significancia œ, y (k — 1) gl en el numerador y (n — k) gl en el de- 
nominador. Por otra parte, si el valor p del F obtenido de (8.4.7) es lo bastante bajo, se puede 


rechazar Ho. 


Sobra decir que en el caso de tres variables (Y y X2, X3) k es 3, en el caso de cuatro variables 
k es 4, y así sucesivamente. 

A propósito, observe que la mayoría de los paquetes de regresión calcula el valor F (dado en 
la tabla de análisis de varianza) junto con los estadísticos usuales de regresión, como los coefi- 
cientes estimados, sus errores estándar, los valores f, etc. Suele suponerse que la hipótesis nula 


para el cálculo tes f;¡= 0. 
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Prueba de hipótesis individual y conjunta 

En la sección 8.3 analizamos la prueba de significancia de un solo coeficiente de regresión, y en 
la sección 8.4, la prueba de significancia conjunta o general de la regresión estimada (es decir, 
todos los coeficientes de pendiente son simultáneamente iguales a cero). Repetimos que estas 
pruebas son diferentes. Así, con base en la prueba £ o intervalo de confianza (de la sección 8.3), 
es posible aceptar la hipótesis de que un coeficiente de pendiente particular, fz, es cero, y aun 
rechazar la hipótesis conjunta de que todos los coeficientes de pendiente son cero. 


La lección es que el “mensaje” conjunto de los intervalos de confianza individuales no sustituye 
una región de confianza conjunta [implicada por la prueba F] en el momento de realizar pruebas de 
hipótesis conjuntas y efectuar afirmaciones de confianza conjuntas.* 


Una relación importante entre R? y F 

Existe una relación estrecha entre el coeficiente de determinación R? y la prueba F en el análisis 
de varianza. En el supuesto de que las perturbaciones u; están normalmente distribuidas, y según 
la hipótesis nula de que 62 = $3 = 0, vimos que 


SCE/2 


= (8.4.8) 
SCR/(n — 3) 
sigue una distribución F con 2 y n — 3 gl. 
De modo más general, en el caso de k variables (inclusive el intercepto), si suponemos que las 
perturbaciones están normalmente distribuidas y que la hipótesis nula es 


Ho: b2 = b3 =: = pk = 0 (8.4.9) 


entonces se cumple que 


SCE/(k — 1 
Ps al (8.4.7) = (8.4.10) 
SCR/(n — k) 
sigue la distribución F con k — 1 y n — k gl. (Vota: El número total de parámetros que se va a 
estimar es k, de los cuales uno es el término de intercepto.) 
Manipulamos (8.4.10) de la siguiente manera: 


a E 
k— 1 SCR 
n=k SCE 


k— 1 SCT-— SCE 
n=k  SCE/SCT 


IE CE/SEn SA 
A n=k R 
Foie 
E= 


— (1 RD) 


8 Fomby et al., op. cit., p. 42. 


242 Parte Uno Modelos de regresión uniecuacionales 


TABLA 8.4 
Tabla ANOVA en térmi- 
nos de R? 


Origen de la variación SC gl SCM* 
Debido a la regresión RAS y?) 2 RAS y?)/2 
Debido a residuos (1-RIO y?) n-3 (1 — RIO yD)/(n— 3) 
Total My n=1 
*Observe que para calcular el valor Fno hay necesidad de multiplicar R? y (1 — R°) por Ny? porque este término desaparece, como 


se muestra en la ecuación (8.4.12). 


donde se emplea la definición R? = SCE/SCT. La ecuación (8.4.11) muestra la forma en que F 
y R? están relacionadas. Las dos varían en relación directa. Cuando R? = 0, F es cero ipso facto. 
Cuanto mayor sea la R?, mayor será el valor F. En el límite, cuando R? = 1, F es infinita. Así, la 
prueba E que mide la significancia general de la regresión estimada, es también una prueba de 
significancia de R°. En otras palabras, la prueba de la hipótesis nula (8.4.9) equivale a probar la 
hipótesis nula de que el R? (poblacional) es cero. 

Para el caso de tres variables (8.4.11) se convierte en 


R?/2 


En virtud de la estrecha conexión entre F y R?, la tabla ANOVA (tabla 8.1) se reformula como la 
tabla 8.4. 

Para nuestro ejemplo ilustrativo, al utilizar (8.4.12) obtenemos: 

0.7077/2 
F= san o = 73.8726 
(1 — 0.7077)/61 

que es casi el mismo que obtuvimos antes, excepto por los errores de redondeo. 

Una ventaja de la prueba F expresada en términos de R? es su facilidad de cálculo: todo lo que 
se necesita saber es el valor de R?. Por consiguiente, la prueba de significancia general F dada en 
(8.4.7) se expresa en términos de R? como se indica en la tabla 8.4. 


Prueba de significancia general de una regresión múltiple 
en términos de R? 


Regla de decisión 


Para probar la significancia general de una regresión en términos de R?: una prueba alterna pero 
equivalente a (8.4.7). 
Dado el modelo de regresión con k variables: 


Y; = Bi + B2X2i + B3X3 +++ BrXri + Us 
Para probar la hipótesis 
Ho: B2 = B3 =- -= pk= 0 
frente a 
Hı: no todos los coeficientes de pendiente son simultáneamente cero 
calcular 


R?2/(k-1) 


= (8.4.13) 


Si F > Fa(k-1, n-k, rechace Ho; de lo contrario, puede aceptar Ho, donde Façk-1, n-ġ es el valor F 
crítico en el nivel de significancia œ, y (k — 1) gl es el numerador y (n — k) gl el denominador. Por 
otra parte, si el valor p del F obtenido de (8.4.13) es lo bastante bajo, rechace Ho. 
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Antes de continuar, reconsideremos el ejemplo 7.5 del capítulo 7. De la regresión (7.10.7) se 
observa que el PIBPC (relativo al PIB per cápita) y el PIBPC al cuadrado explican sólo 10.92% 
de la variación en la tasa de crecimiento del PIB para una muestra de 190 países. Esta R? de 
0.1092 parece un valor “bajo”. ¿Es estadísticamente distinto de cero? ¿Cómo averiguarlo? 

Recuerde el análisis anterior en el apartado “Una relación importante entre R? y F”, respecto 
de la relación entre R? y el valor F como se dio en (8.4.11) u (8.4.12) para el caso específico de 
dos regresoras. Como se observó, si R? es cero, F es cero ipso facto, lo cual será el caso si las 
regresoras no tienen ningún efecto sobre la regresada. Por tanto, si añadimos R? = 0.1092 en la 
fórmula (8.4.12), obtenemos 


0.1092/2 


Z = 11.4618 (8.4.13) 
(1 — 0.1092)/187 


Según la hipótesis nula de que R? = 0, el valor F anterior sigue la distribución F con 2 y 187 gl en 
el numerador y denominador, respectivamente. (Nota: Hay 190 observaciones y dos regresoras.) 
De la tabla F se observa que este valor F es significativo en un nivel de casi 5%; de hecho, el valor 
pes 0.00002. Por tanto, podemos rechazar la hipótesis nula de que las dos regresoras no tienen 
efecto sobre la regresada, a pesar de que R? es de sólo 0.1092. 

Este ejemplo permite una importante observación empírica: en los datos transversales que 
implican varias observaciones, por lo general se obtienen R? bajas, debido a la diversidad de las 
unidades transversales. En consecuencia, no hay que sorprenderse o preocuparse si se tiene una 
R? baja en regresiones transversales. Lo relevante es que el modelo esté bien especificado, que las 
regresoras tengan los signos correctos (es decir, los teóricamente esperados) y que (con un poco 
de suerte) los coeficientes de regresión sean estadísticamente significativos. El lector debe verifi- 
car que, de manera individual, ambas regresoras de (7.10.7) sean estadísticamente significativas 
en un nivel de 5% o mejor (es decir, menor que 5%). 


La contribución “incremental” o “marginal” 

de una variable explicativa 

En el capítulo 7 afirmamos que por lo general no podemos asignar el valor R? entre las distintas 
regresoras. En el ejemplo de la mortalidad infantil descubrimos que la R? valía 0.7077, pero no 
fue posible saber qué parte de dicho valor se debía a la regresora PIBPC y qué parte a la TAM, 
debido a la posible correlación entre las dos regresoras de las muestras disponibles. Se aclara este 
asunto con la técnica del análisis de varianza. 

Para el ejemplo presente, vimos que individualmente X) (PIBPC) y X; (TAM) eran estadísti- 
camente significativas con base en pruebas t (separadas). También observamos que, con base en 
la prueba F, colectivamente las dos regresoras tienen un efecto importante sobre la regresada Y 
(mortalidad infantil). 

Ahora suponga que introducimos PIBPC y TAM de manera secuencial; es decir, primero ha- 
cemos la regresión de la mortalidad infantil sobre PIBPC y evaluamos su significancia, y después 
añadimos TAM al modelo para averiguar si contribuye en algo (por supuesto, puede invertirse el 
orden en el que se añaden PIBPC y TAM). Por contribución nos referimos al posible incremento 
“significativo” de la SCE (y por tanto de la R?) en relación con la SCR si añadimos una variable 
al modelo. Esta contribución puede llamarse con toda propiedad contribución incremental o 
marginal de una variable explicativa. 

El tema de la contribución incremental es importante en la práctica. En la mayoría de las 
investigaciones empíricas, el investigador puede no estar por completo seguro de que se justi- 
fique agregar una variable X al modelo, pues ya hay en él muchas otras variables X. No se desea in- 
cluir variable(s) cuya contribución a la SCE sea poca. Por la misma causa, tampoco se quiere 
excluir variable(s) que aumente(n) sustancialmente la SCE. Pero, ¿cómo decidir si una variable 
X reduce significativamente la SCR? La técnica del análisis de varianza puede extenderse con 
facilidad para responder esta pregunta. 
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TABLA 8.5 

Tabla ANOVA para la 
ecuación de regresión 
(8.4.14) 


Origen de la variación sc gl SCM 
SCE (debido al PIBPC) 60 449.5 1 60 449.5 
SER 303 228.5 62 4 890.7822 
Total 363 678 63 


Suponga que primero hace la regresión de la mortalidad infantil sobre el PIBPC y obtiene la 
siguiente regresión: 


Ml; = 157.4244 — 0.0114 PIBPC (8.4.14) 
t= (15.9894) (—3.5156) r? = 0.1662 
valor p= (0.0000) (0.0008) r? ajust. = 0.1528 


Como muestran estos resultados, PIBPC tiene un efecto importante sobre MI. La tabla ANOVA 
correspondiente a la regresión anterior se da en la tabla 8.5. 

Si suponemos que las perturbaciones u; están normalmente distribuidas y establecemos la 
hipótesis de que PIBPC no tiene ningún efecto sobre MI, obtenemos el valor F de 


F= ME 12.3598 (8.4.15) 
— 4890.7822 ~ de 


el cual sigue la distribución F con 1 y 62 gl. Este valor F resulta muy significativo, pues el valor 
p calculado es de 0.0008. Por tanto, como antes, rechazamos la hipótesis de que PIBPC no tiene 
efecto alguno sobre MI. A propósito, observe que 1? = (3.5156)? = 12.3594, lo cual es casi lo 
mismo que el valor F de (8.4.15), donde el valor £ se obtiene de (8.4.14). Pero esto no debe sor- 
prender, porque el cuadrado del estadístico £ con n gl es igual al valor F con 1 gl en el numerador 
y n gl en el denominador, relación que se estableció en el capítulo 5. Note que en este ejemplo 
n= 64, 

Una vez efectuada la regresión (8.4.14), supongamos que decidimos agregar A3 al modelo y 
obtener la regresión múltiple (8.1.4). Las preguntas son: 


1. ¿Cuál es la contribución marginal o incremental de TAM si sabemos que PIBPC ya aparece en 
el modelo y está relacionada significativamente con MI? 

2. ¿Es la contribución incremental de TAM estadísticamente significativa? 

3. ¿Cuál es el criterio para agregar variables al modelo? 

Estas preguntas se resuelven mediante la técnica ANOVA. Para ver esto elaboramos la tabla 8.6. 

En esta tabla, Xz se refiere al PIBPC y X; a la TAM. 


Para evaluar la contribución incremental de X3 después de considerar la contribución de X, 
calculamos 


F= Q2/gl 
Q4/gl 


(SCE nueva — SCE yjeja)/número de regresoras nuevas 


— SCR mueva/ gl (= n — número de parámetros en el nuevo modelo) 


_ Q/1 
 Qa/61 


para este ejemplo (8.4.16) 


TABLA 8.6 

Tabla ANOVA para eva- 
luar la contribución in- 
cremental de una o más 
variables 


TABLA 8.7 

Tabla ANOVA para el 
ejemplo ilustrativo: 
análisis incremental 
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Origen de la variación SC gl SCM 
SCE debido sólo a X2 Qi = ÊL £ x2 1 
SCE debido a la adición de X3 Q2 = Q3 — Qı 1 = 
SCE debido tanto a X2 como a X3 Q; = f2 Y yiX2i + B3 E Ma 2 
SCR Q4 = Qs = Q3 m= 3 Q4 
Total G= m=] n=3 


donde SCEnueva = SCE según el modelo nuevo (es decir, después de agregar las regresoras nue- 
vas = Q3), SCEvieja = SCE según el modelo antiguo ( = Q1) y SCRnueva = SCR según el nuevo 
(es decir, después de considerar todas las regresoras = Q4). Para este ejemplo ilustrativo, los 
resultados se presentan en la tabla 8.7. 

Ahora, al aplicar la ecuación (8.4.16), obtenemos 


196 912.9 


= ——— EA YA O! (8.4.17) 
1 742.8786 


Según los supuestos usuales, este valor F sigue la distribución F con 1 y 62 gl. El lector verificará 
que este valor F es muy significativo, lo cual sugiere que la incorporación de TAM al modelo au- 
menta en gran medida la SCE y, por tanto, el valor R?. En consecuencia, TAM debe incorporarse 
al modelo. Una vez más, observe que si elevamos al cuadrado el valor del coeficiente de TAM en 
la regresión múltiple (8.1.4), que es (—10.6293)?, obtendremos el valor F de (8.4.17), salvo por 
errores de redondeo. 

A propósito, la razón F de (8.4.16) se reformula sólo en términos de los valores R?, como 
en (8.4.13). Como lo indica el ejercicio 8.2, la razón F de (8.4.16) es equivalente a la siguiente 
razón F:? 


RE z R? oja) / El 
(1 z REEL 
(R 5 R 


(1 — R2ueva) /21 (= n — número de parámetros en el nuevo modelo) 


Al 


) [número de regresoras nuevas 


(8.4.18) 
Origen de la variación SC gl SCM 
SCE debido a PIBPC 60 449.5 1 60 449.5 
SCE debido a la adición de TAM 196 912.9 1 196 912.9 
ESCE debido tanto a PIBPC como a TAM 257 362.4 2 128 681.2 
SCR 106 315.6 63 1 742.8786 


Total 363 678 63 


? La siguiente prueba F es un caso especial de la prueba F más general dada en (8.6.9) u (8.6.10), en la sec- 
ción 8.6. 
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Esta razón F también sigue la distribución F con los gl apropiados en el numerador y el denomi- 
nador, 1 y 61, respectivamente, en el ejemplo ilustrativo. 

Para nuestro ejemplo, R?,,.., = 0.7077 [de (8.1.4)] y Roja = 0.1662 [de (8.4.14)]. Por consi- 
guiente, 


_ (0.7077 — 0.1662)/1 


= 113.05 (8.4.19) 
(1 = 0.7077)/61 


lo cual es casi lo mismo que el valor F de (8.4.17), excepto por errores de redondeo. Esta F es 
muy significativa, pues refuerza el descubrimiento anterior de que la variable TAM pertenece al 
modelo. 

Advertencia: Si utiliza la versión R? de la prueba F dada en (8.4.11), asegúrese de que la va- 
riable dependiente en el modelo reciente y en el anterior sea la misma. Si son diferentes utilice 
la prueba F de (8.4.16). 


Cuándo agregar una nueva variable 
El procedimiento de prueba F recién presentado constituye un método formal para decidir si una 
variable debe adicionarse a un modelo de regresión. A menudo, los investigadores se enfrentan a 
la labor de escoger entre diversos modelos en competencia, que consideran la misma variable 
dependiente pero diferentes variables explicativas. Como un asunto de elección ad hoc (debido 
a que muchas veces la base teórica del análisis es débil), estos investigadores seleccionan el 
modelo que presenta la R? ajustada más elevada. Por consiguiente, si la inclusión de una variable 
incrementa R?, ésta se conserva en el modelo aunque no reduzca significativamente la SCR en 
sentido estadístico. La pregunta entonces es: ¿cuándo aumenta R? ajustada? Puede demostrarse 
que R? aumenta si el valor t del coeficiente de la variable recién agregada es mayor que 1 en 
valor absoluto, donde el valor t se calcula según la hipótesis de que el valor poblacional del men- 
cionado coeficiente es cero [es decir, el valor £ calculado a partir de (5.3.2) conforme a la hipó- 
tesis de que el verdadero £ es cero].'” El criterio anterior también se plantea en forma diferente: 
R? aumenta con la adición de una variable explicativa sólo si el valor F(= t°) de esa variable 
es superior a l. 

Con cualquier criterio, la variable TAM con un valor £ de — 10.6293 o un valor F de 112.9814 
debe aumentar R?, lo cual sin duda sucede: cuando se agrega TAM al modelo, R? se incremen- 
ta de 0.1528 a 0.6981. 


Cuándo agregar un grupo de variables 

¿Se puede elaborar una regla similar para decidir si se justifica agregar (o quitar) un grupo de 
variables del modelo? La respuesta debe ser clara a partir de (8.4.18): si la adición (o elimina- 
ción) de un grupo de variables al modelo genera un valor F mayor (menor) que 1, R? aumenta 
(disminuye). Por supuesto, de (8.4.18) se deriva fácilmente si la adición (disminución) de un 
grupo de variables incrementa (reduce) de modo significativo el poder explicativo de un modelo 
de regresión. 


8.5 Prueba de igualdad de dos coeficientes de regresión 


Suponga que en la regresión múltiple 


Y, = Bi + b2X2i + B3X3; + PaXai + ui (8.5.1) 


10 Para una demostración, véase Dennis J. Aigner, Basic Econometrics, Prentice-Hall, Englewood Cliffs, Nueva 
Jersey, 1971, pp. 91-92. 
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deseamos probar la hipótesis 


Ho: B3 = Ba o  (B3=f14)=0 
Hı: b3 # Pa o (3—4) #0 


es decir, los dos coeficientes de pendiente $3 y f4 son iguales. 

Una hipótesis nula de este tipo tiene importancia práctica; por ejemplo, si (8.5.1) representa 
la función de demanda de un bien donde Y = cantidad demandada del bien, X = precio del bien, 
X3 = ingreso del consumidor y X4 = riqueza del consumidor. La hipótesis nula en este caso sig- 
nifica que los coeficientes de ingreso y riqueza son los mismos. Si Y; y las X están expresadas en 
forma logarítmica, la hipótesis nula en (8.5.2) implica que las elasticidades ingreso y riqueza del 
consumo son iguales. (¿Por qué?) 

¿Cómo probamos una hipótesis nula como ésta? Con los supuestos clásicos se demuestra 
que 


(8.5.2) 


y — Ê- Ba) — (B — Ba) 
ee (Ês — fa) 


(8.5.3) 


sigue la distribución £ con (n — 4) gl porque (8.5.1) es un modelo con cuatro variables o, más 
generalmente, con (n — k) gl, donde k es el número total de parámetros estimados, inclusive el 
término constante. El ee (83 — fx) se obtiene de la siguiente fórmula conocida (véase detalles en 
el apéndice A): 


ee (Ês — fa) = var (B3) + var (b4) — 2 cov (f5, Ba) (8.5.4) 


Si sustituimos la hipótesis nula y la expresión para el ee B3 — faen (8.5.3), el estadístico de 
prueba se convierte en 


t= - Ba = Ba — (8.5.5) 
y var(Bs) + var (a) — 2 cov (Ês, És) 


Ahora el procedimiento de prueba comprende los siguientes pasos: 


1. Estime f3 y Ba. Cualquier software estándar puede hacerlo. 


2. La mayoría de los programas de computación calcula las varianzas y covarianzas de los pará- 
metros estimados.!' De estas estimaciones, el error estándar en el denominador de (8.5.5) se 
obtiene fácilmente. 


3. Obtenga la razón t de (8.5.5). Observe que la hipótesis nula en el caso presente es 
(83 — Ba) =0. 

4. Si la variable £ calculada de (8.5.5) excede el valor £ crítico en el nivel de significancia desig- 
nado para los gl dados, puede rechazar la hipótesis nula; de lo contrario, no la rechace. En 
forma alterna, si el valor p del estadístico £ de (8.5.5) es razonablemente bajo, puede rechazar 
la hipótesis nula. Observe que mientras más bajo sea el valor p, mayor será la evidencia en 
contra de la hipótesis nula. Por tanto, cuando se dice que un valor p es bajo o razonablemente 
bajo, se quiere decir que es menor que el nivel de significancia, por ejemplo, 10,5 o 1%. En 
esta decisión está implícito cierto criterio personal. 


11 La expresión algebraica para la fórmula de la covarianza es un poco compleja. En el apéndice C se ofrece 
una expresión compacta de ella, aunque con notación matricial. 
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EJEMPLO 8.2 
De nuevo, la función 
cúbica de costo 


Recuerde la función cúbica del costo total estimada en el ejemplo 7.4, sección 7.10, que se 
reproduce en seguida: 


Y; = 141.7667 + 63.4777X; — 12.9615X? + 0.9396X? 
ee= (6.3753) (4.7786) (0.9857) (0.0591) (7.10.6) 
cov (Ês, fa) = —0.0576; R? = 0.9983 


donde Y es el costo total y X es la producción, y donde las cifras en paréntesis son los errores 
estándar estimados. 

Suponga que deseamos probar la hipótesis de que los coeficientes de los términos X? y X? 
en la función cúbica de costo son los mismos, es decir, $3 = B4 o (83 — Ba4) = O. En la regresión 
(7.10.6) aparecen todos los resultados necesarios para realizar la prueba t a partir de (8.5.5). La 
mecánica es la siguiente: 


P3— Ba 
yvar(B3) + var(Ba) — 2 cov (Ês, fa) 
—12.9615 — 0.9396 


t= 


= (8.5.6) 
(0.9867)2 + (0.0591)? — 2(-0.0576) 
13.901 
A E 
1.0442 $ 


El lector puede verificar que, para 6 gl (¿por qué?), el valor t observado excede el valor t crítico 
aun en el nivel de significancia de 0.002 (o 0.2%) (prueba de dos colas); el valor p es extrema- 
damente pequeño, 0.000006. Por tanto, podemos rechazar la hipótesis de que los coeficientes 
de X? y X? en la función cúbica de costo son idénticos. 


8.6 Mínimos cuadrados restringidos: pruebas de restricciones 


de igualdades lineales 


Hay ocasiones en las cuales la teoría económica puede sugerir que los coeficientes en un modelo 
de regresión satisfacen algunas restricciones de igualdades lineales. Por ejemplo, considere la 
función de producción Cobb-Douglas: 


Y, = pı XË XP e" (7.9.1) = (8.6.1) 


donde Y = producción, X) = insumo trabajo y X; = insumo capital. Escrita en forma de loga- 
ritmo, la ecuación se convierte en 


In Y, = bo + b2 1n Xz; + B3 ln Xz; + ui (8.6.2) 


donde £o = In £1. 
Ahora, si existen rendimientos constantes a escala (un cambio equiproporcional en la produc- 
ción ante un cambio equiproporcional en los insumos), la teoría económica sugeriría que 


Pa+ P3=1 (8.6.3) 


el cual es un ejemplo de una restricción de igualdad lineal.'? 


¿Cómo saber si hay rendimientos constantes a escala, es decir, si es válida la restricción 
(8.6.3)? Existen dos métodos. 


12 Si tuviéramos f2 + £; < 1, esta relación sería un ejemplo de restricción de desigualdad lineal. Para el ma- 
nejo de tales restricciones se requieren técnicas de programación matemática. 
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El enfoque de la prueba t 


El procedimiento más simple es estimar (8.6.2) de la forma usual sin tener en cuenta la restric- 
ción (8.6.3) explícitamente. Esto se denomina regresión no restringida o no limitada. Tras 
estimar f2 y $63 (por ejemplo, mediante el método de MCO) se realiza una prueba de la hipótesis 
o restricción (8.6.3) mediante la prueba £ de (8.5.3), a saber: 


ia (B2 + Ê) — (B2 + Pa) 
ee (> + $3) 
e (Êz + Ê) — 1 
[yar (82) + var(B3) + 2 cov (ĝ2, B3) 


(8.6.4) 


donde (2 + 3) = 1 según la hipótesis nula y el denominador es el error estándar de (Bo + B3). 
Entonces, según la sección 8.5, si el valor ź calculado a partir de (8.6.4) excede el valor £ crítico 
en el nivel de significancia seleccionado, rechazamos la hipótesis de rendimientos constantes a 
escala; de lo contrario, no la rechazamos. 


Enfoque de la prueba F: mínimos cuadrados restringidos 

La prueba f anterior es una clase de examen post mortem, pues se trata de encontrar si se satisface 
la restricción lineal después de estimar la regresión “no restringida”. Un método directo sería 
incorporar la restricción (8.6.3) en el procedimiento de estimación desde el comienzo. En el 
ejemplo presente, este procedimiento se realiza fácilmente. De (8.6.3) vemos que: 


B2=1-B; (8.6.5) 


B3=1- k (8.6.6) 


Por consiguiente, con cualquiera de estas igualdades podemos eliminar un coeficiente 8 en (8.6.2) 
y estimar la ecuación resultante. Así, si utilizamos (8.6.5) escribimos la función de producción 
Cobb-Douglas de la siguiente manera: 


In Y; = fo + (1 — B3) ln Xz; + 63 In X3; + ui 
= Bo + ln Xz; + B3Un X3; = In X»;) + ui 


(ln Y; — In Xz) = Bo + B3Un Xz; — ln Xz) + ui (8.6.7) 


In (Y; /Xz:) = Bo + B3 In (X3: /Xzi) + ui (8.6.8) 


donde (Y;/Xz;) = razón producción/trabajo y (X3;/Xz;) = razón capital/trabajo, indicadores de 
gran importancia económica. 

Observe cómo se transforma la ecuación original (8.6.2). Una vez que se estima £; de (8.6.7) 
u (8.6.8), f6, se estima con facilidad a partir de la relación (8.6.5). Sobra decir que este proce- 
dimiento garantiza que la suma de los coeficientes estimados de los dos insumos iguale a 1. El 
procedimiento esquematizado en (8.6.7) o en (8.6.8) se conoce como mínimos cuadrados res- 
tringidos (MCR). Este procedimiento puede generalizarse a modelos con cualquier número de 
variables explicativas y más de una restricción de igualdad lineal. La generalización se encuentra 
en Theil.!* (Véase en seguida la prueba F general.) 


13 Henri Theil, Principles of Econometrics, John Wiley & Sons, Nueva York, 1971, pp. 43-45. 
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¿Cómo comparamos las regresiones de mínimos cuadrados no restringidas y las restringidas? 
En otras palabras, ¿cómo saber que, por ejemplo, la restricción (8.6.3) es válida? Esta pregunta 
se verifica al aplicar la prueba F de la siguiente manera. Sea 
Y ig = SCR de la regresión no restringida (8.6.2) 

Y 1%, = SCR de la regresión restringida (8.6.7) 
m = número de restricciones lineales (1 en el presente ejemplo) 
k = número de parámetros en la regresión no restringida 
n = número de observaciones 


Entonces, 


m (SCRpR = SCRyr)/m 
| SCRarXn—k) 

(04% — Z ûn) /m 
ig /(n — k) 


(8.6.9) 


sigue la distribución F con m, (n — k) gl. (Vota: Las letras NR y R representan “no restringida” 
y “restringida”, respectivamente.) 
La anterior prueba F también se expresa en términos de R? de la siguiente manera: 


Es (Rr T RR) /m 
P= e (8.6.10) 


donde R?.. y R? son los valores R? obtenidos de las regresiones no restringida y restringida res- 
NR Y KR 
pectivamente, es decir, de las regresiones (8.6.2) y (8.6.7). Debe observarse que 


Rie = Ri (8.6.11) 


X ûs) âk (8.6.12) 


En el ejercicio 8.4 se le pide justificar estas afirmaciones. 

Advertencia: Al utilizar (8.6.10) tenga en mente que si la variable dependiente en los mode- 
los restringido y no restringido no es la misma, Rłp y R2 no son directamente comparables. En 
ese caso, utilice el procedimiento descrito en el capítulo 7 para hacer comparables los dos valores 
de R? (véase el ejemplo 8.3 en seguida), o utilice la prueba F de la ecuación (8.6.9). 


EJEMPLO 8.3 
Función de produc- 
ción Cobb-Douglas 
para la economía 
mexicana, 1955- 
1974 


A fin de ilustrar el análisis anterior, considere los datos de la tabla 8.8. El ajuste de la función de 
producción Cobb-Douglas a esos datos produjo los siguientes resultados: 


Ín PIB¿= —1.6524 + 0.3397 In Trabajo; + 0.8460 In Capital; (8.6.13) 
t= (-2.7259) (1.8295) (9.0625) 
valor p= (0.0144) (0.0849) (0.0000) 


R? = 0.9951 SCRynr = 0.0136 


donde SCRng es la SCR no restringida, pues no se pusieron restricciones al estimar (8.6.13). 


TABLA 8.8 

PIB real, empleo y 
capital fijo real en 
México 


Fuente: Victor J. Elias, Sources 
of Growth: A Study of Seven 
Latin American Economies, 
International Center for Eco- 
nomic Growth, ICS Press, San 
Francisco, 1992. Datos tomados 
de las tablas ES, E12 y E14. 
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Año PIB* Empleo! Capital fijo* 
1955 114 043 8 310 182113 
1956 120 410 8 529 193 749 
1957 129 187 8 738 205 192 
1958 134 705 8 952 215 130 
1959 139 960 9171 225 021 
1960 150 511 9 569 237 026 
1961 157 897 9 527 248 897 
1962 165 286 9 662 260 661 
1963 178 491 10 334 275 466 
1964 199 457 10 981 295 378 
1965 212 323 11 746 315715 
1966 226 977 11 521 337 642 
1967 241 194 11 540 363 599 
1968 260 881 12 066 391 847 
1969 277 498 12 297 422 382 
1970 296 530 12955 455 049 
1971 306 712 13 338 484 677 
1972 329 030 13 738 520 553 
1973 354 057 15 924 561 531 
1974 374 977 14 154 609 825 


* Millones de pesos de 1960. 
t Miles de personas. 
j Millones de pesos de 1960. 


Ya vimos en el capítulo 7 cómo interpretar los coeficientes de la función de producción Cobb- 
Douglas. Como se aprecia, la elasticidad producción/trabajo es de casi 0.34 y la elasticidad 
producción/capital vale casi 0.85. Si sumamos estos coeficientes se obtiene 1.19, lo que sugiere 
que quizá la economía mexicana experimentó durante ese periodo establecido rendimientos 
crecientes a escala. Por supuesto, desconocemos si 1.19 es estadísticamente diferente de 1. 

Para ver si es el caso, se impone una restricción de rendimientos constantes a escala, lo cual 
da la siguiente regresión: 


În (PIB/Trabajo) = —0.4947 + 1.0153 In (Capital/Trabajo): (8.6.14) 
t=(-4.0612) (28.1056) 
valor p= (0.0007) (0.0000) 


RÉ=0.9777  SCRpę = 0.0166 


donde SCRr es la SCR restringida, pues impusimos la restricción de que haya rendimientos 
constantes a escala. 


(continúa) 
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EJEMPLO 8.3 


(continuación) 


Como la variable dependiente en las dos regresiones anteriores es diferente, tenemos que 
utilizar la prueba F dada en (8.6.9). Se cuenta con los datos necesarios para obtener el valor F. 


mm (SCRr — SCRnr)/m 
 SCRyg/(n— K) 


_ (0.0166 — 0.0136)/1 
7 (0:0136)/Q20— 3) 


=2/8 


Observe que en el presente caso m = 1, pues sólo se impuso una restricción y (n — k) es 17, en 
vista de que se tienen 20 observaciones y tres parámetros en la regresión no restringida. 

Este valor F sigue una distribución F con 1 gl en el numerador y 17 en el denominador. El 
lector puede verificar con facilidad que esta F no es significativa, en un nivel de significancia de 
5%. (Véase el apéndice D, tabla D.3.) 

Así, la conclusión es que la economía mexicana quizá se caracterizó por rendimientos cons- 
tantes a escala en el periodo de muestra y, por tanto, no hay daño alguno al utilizar la regresión 
restringida dada en (8.6.14). Como muestra esta regresión, si la razón capital/trabajo se incre- 
mentó 1%, en promedio, la productividad del trabajo aumentó casi 1%. 


Prueba F general!* 


La prueba F dada en (8.6.10) o su equivalente en (8.6.9) proporciona un método general de 
prueba de hipótesis sobre uno o más parámetros del modelo de regresión con k variables: 


Y = pi + PrX2 + BAG: +++ BA ri +45 (8.6.15) 


La prueba F de (8.4.16) o la prueba £ de (8.5.3) no es otra cosa que una aplicación específica de 
(8.6.10). Así, hipótesis como 


Ho: Ba = B3 (8.6.16) 
Ho: 3 + Ba + Bs =3 (8.6.17) 


que consideran algunas restricciones lineales en los parámetros del modelo con k variables, o 
hipótesis como 


Ho: P3 = P4 = P5 = Pp = 0 (8.6.18) 


que implica que algunas regresoras están ausentes del modelo, pueden probarse mediante la 
prueba F de (8.6.10). 

Del análisis en las secciones 8.4 y 8.6, el lector habrá notado que la estrategia general de la 
prueba F es la siguiente: hay un modelo más grande, el modelo no restringido (8.6.15), y un 
modelo más pequeño, el modelo restringido o limitado, que se obtuvo del modelo más grande al 
eliminar algunas de sus variables, por ejemplo (8.6.18), o al colocar algunas restricciones lineales 
sobre uno o más coeficientes del modelo más grande, por ejemplo (8.6.16) u (8.6.17). 


14 Si se utiliza el método de máxima verosimilitud en la estimación, entonces hay una prueba semejante a la 
que estudiará en seguida, a saber, la prueba de razón de verosimilitud, la cual es un poco complicada 
y por tanto se estudia en el apéndice de este capítulo. Para un análisis más a fondo, véase Theil, op. cit., 

pp. 179-184. 


EJEMPLO 8.4 

Demanda de carne 
de pollo en Estados 
Unidos, 1960-1982 
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Ajustamos entonces los modelos no restringido y restringido a los datos y obtenemos los 
coeficientes de determinación respectivos, a saber, Rg y R$. Se observan los gl en el modelo no 
restringido (= n — k) y también los gl en el modelo restringido (= m), con m como el número 
de restricciones lineales [por ejemplo 1 en (8.6.16) o en (8.6.18)] o el número de regresoras 
omitidos del modelo [por ejemplo m = 4 si se cumple (8.6.18), pues se supone que hay cuatro 
regresoras ausentes del modelo]. Así podemos calcular la razón F como se indica en (8.6.9) u 
(8.6.10), y utilizar esta regla de decisión: si la F calculada excede Fą(m, n — k), donde F.(m, 
n — k) es el F crítico en el nivel de significancia a, se rechaza la hipótesis nula; de lo contrario 
no se rechaza. 

Ilustremos lo anterior: 


En el ejercicio 7.19, entre otras cosas, se le pidió considerar la siguiente función de demanda 
de pollos: 


In Y; = 61 + Ba In X2: + B3 In X3t + Ba In X4t + Bs In Xs; + ui (8.6.19) 


donde Y = consumo de pollo per cápita, lbs; X2 = ingreso real disponible per cápita, $; X3 = 
precio real al menudeo del pollo por lb, ¢; X4 = precio real al menudeo del cerdo por Ib, € y 
Xs = precio real de la carne de res por lb, ¢. 

En este modelo £2, 3, Ba y Bs son las elasticidades ingreso, precio-propio, precio-cruzado 
(cerdo) y precio-cruzado (carne de res). (¿Por qué?) De acuerdo con la teoría económica, 


B2>0 

B3=<0 

Ba > 0, siel pollo y el cerdo son productos que compiten 
<0, siel pollo y el cerdo son productos complementarios (8.6.20) 
=0, siel pollo y el cerdo son productos no relacionados 

Bs > 0,  siel pollo y la carne de res son productos que compiten 
<0, siel pollo y el cerdo son productos complementarios 


=0, siel pollo y el cerdo son productos no relacionados 


Suponga que alguien afirma que el pollo, el cerdo y la carne de res son productos no rela- 
cionados en el sentido de que al consumo de pollo no le afectan los precios del cerdo ni de la 
carne de res. En resumen, 


Ho: Ba = Bs 0) (8.6.21) 
Por consiguiente, la regresión restringida se transforma en 
In Ye = B1 + B2 In X2+ + £3 IN X3t + Ur (8.6.22) 


La ecuación (8.6.19) es, a todas luces, la regresión no restringida. 
Con la información del ejercicio 7.19 obtenemos lo siguiente: 
Regresión no restringida 


InY, = 2.1898 + 0.3425 In X2;— 0.5046 In X3; + 0.1485 In X4 + 0.0911 In Xs; 


(0.1557) (0.0833) (0.1109) (0.0997) (0.1007) 
Rr 0.9823 (8.6.23) 


Regresión restringida 
MY = 2.0328 + 0.4515 In X2¿— 0.3772 In Xz 
(0.1162) (0.0247) (0.0635) (8.6.24) 
RÅ = 0.9801 


(continúa) 
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EJEMPLO 8.4 


(continuación) 


donde las cifras en paréntesis son los errores estándar estimados. Nota: Los valores de R? de 
(8.6.23) y (8.6.24) son comparables, pues la variable dependiente en los dos modelos es la 
misma. 

Ahora la razón F para probar la hipótesis (8.6.21) es 


pa (RÅR 3 RÈ) /m 
(1 = RRR) /(n= k) 
En este caso, el valor de m es 2, pues hay dos restricciones: 84 = 0 y Bs = O. Los gl del denomi- 


nador (n — k) son 18, porque n = 23 y k = 5 (5 coeficientes £). 
Por consiguiente, la razón F es 


(8.6.10) 


_ (0.9823 — 0.9801)/2 
- T- 0e 


= 1.1224 


(8.6.25) 


que tiene una distribución F con 2 y 18 gl. 

En el nivel de 5% se aprecia con claridad que este valor F no es estadísticamente significa- 
tivo [Fo.0s(2,18) = 3.55]. El valor p es 0.3472. Por consiguiente, no hay razón para rechazar la 
hipótesis nula: la demanda de pollo no depende de los precios del cerdo ni de la carne de res. 
En resumen, aceptamos la regresión restringida (8.6.24) como la que representa la función de 
demanda de pollo. 

Observe que la función de demanda satisface las expectativas económicas a priori, pues la 
elasticidad precio-propio es negativa y la elasticidad ingreso es positiva. Sin embargo, la elastici- 
dad precio estimada, en valor absoluto, es estadísticamente menor que la unidad, lo que implica 
que la demanda de pollo es inelástica al precio. (¿Por qué?) Además, la elasticidad ingreso, si 
bien es positiva, estadísticamente también es menor que la unidad, lo que sugiere que el pollo 
no es un artículo de lujo; por convención, se dice que un artículo es de lujo si su elasticidad 
ingreso es mayor que uno. 


8.7 Prueba para la estabilidad estructural o paramétrica 


de los modelos de regresión: la prueba de Chow 


Cuando utilizamos un modelo de regresión que implica series de tiempo, tal vez se dé un cam- 
bio estructural en la relación entre la regresada Y y las regresoras. Por cambio estructural nos 
referimos a que los valores de los parámetros del modelo no permanecen constantes a lo largo 
de todo el periodo. A veces el cambio estructural se debe a fuerzas externas (por ejemplo, el em- 
bargo petrolero impuesto por la OPEP en 1973 y 1979, o la Guerra del Golfo de 1990-1991), o 
a cambios en las políticas (como la transformación de un sistema de tasa de cambio fija por otro 
sistema flexible, alrededor de 1973) o por acciones tomadas por el Congreso estadounidense (por 
ejemplo, los cambios impositivos iniciados por el presidente Reagan durante sus dos periodos de 
gobierno, o por los cambios en los salarios mínimos), u otras causas diversas. 

¿Cómo saber que de verdad ocurrió un cambio estructural? Para ser específicos, considere 
los datos de la tabla 8.9 sobre el ingreso personal disponible y el ahorro personales, en miles de 
millones de dólares, para Estados Unidos de 1970 a 1995. Suponga que deseamos estimar una 
sencilla función ahorro que relacione el ahorro (Y) con el ingreso personal disponible IPD (X). 
Como tenemos los datos se puede calcular una regresión por MCO de Y sobre X. Pero, al hacerlo, 
afirmamos que la relación entre ahorros e IPD no cambió mucho durante el lapso de 26 años. Éste 
tal vez sea un supuesto dificil de creer. Por ejemplo, se sabe muy bien que en 1982 Estados Uni- 
dos experimentó su peor recesión en tiempos de paz. La tasa de desempleo civil alcanzó 9.7%, 


TABLA 8.9 

Ahorro e ingreso perso- 
nal disponible (en miles 
de millones de dólares) 
para Estados Unidos, 
1970-1995 


Fuente: Economic Report of the 
President, 1997, tabla B-28, 
p. 332. 
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Observación Ahorro Ingreso 
1970 61.0 727.1 
1971 68.6 790.2 
1972 63.6 855.3 
1973 89.6 965.0 
1974 97.6 1 054.2 
1975 104.4 1159.2 
1976 96.4 1 273.0 
1977 92.5 1 401.4 
1978 112.6 1 580.1 
1979 130.1 1 769.5 
1980 161.8 1 973.3 
1981 199.1 2 200.2 
1982 205.5 2 347.3 


Observación 


1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 


Ahorro 


167.0 
235.7 
206.2 
196.5 
168.4 
189.1 
187.8 
208.7 
246.4 
272.6 
214.4 
189.4 
249.3 


Ingreso 


2 522.4 
2 810.0 
3 002.0 
3 187.6 
3 363.1 
3 640.8 
3 894.5 
4 166.8 
4 343.7 
4 613.7 
4 790.2 
5 021.7 
5 320.8 


la más alta desde 1948. Un suceso como éste pudo perturbar la relación entre el ahorro y el IPD. 
Para ver si lo anterior sucedió, dividamos la muestra en dos periodos: 1970-1981 y 1982-1995, 


antes y después de la recesión de 1982. 
Ahora tenemos tres posibles regresiones: 


Periodo 1970-1981: Y, = ài + à2X; + uir 
Periodo 1982-1995: Y, = yı + y2X + uz, 
Periodo 1970-1995: Y, = œ + &2X; + u 


nı = 12 
n = 14 
n= (ni +m)= 26 


(8.7.1) 
(8.7.2) 
(8.7.3) 


La regresión (8.7.3) supone que no hay diferencia entre los dos periodos, y por tanto estima la 
relación entre el ahorro y el IPD para la totalidad del periodo, que consiste en 26 observaciones. 
En otras palabras, esta regresión supone que el intercepto, así como el coeficiente de la pendiente, 
permanecen constantes durante todo el periodo; es decir, no hay cambio estructural. Si ésta fuera 


la situación, entonces 4, = à1 = V1 Y % == yo. 


Las regresiones (8.7.1) y (8.7.2) suponen que las regresiones en ambos periodos son distintas; 
es decir, el intercepto y los coeficientes de las pendientes son diferentes, como se indica mediante 
los parámetros con subíndice. En las regresiones anteriores, las u representan los términos de 


error y las n el número de observaciones. 


Para los datos de la tabla 8.9, las contrapartes empíricas de las tres regresiones anteriores son 


las siguientes: 


Y, = 1.0161 + 0.0803 X, 


t = (0.0873) 


(9.6015) 
R? = 0.9021 SCR; = 1785.032 


Y, = 153.4947 + 0.0148X, 


t= (4.6922) 


R? = 0.2971 SCR, = 10005.22 


Y, = 62.4226 + 0.0376 X, +--- 
t= (4.8917) (8.8937) +--- 


R? = 0.7672 SCR; = 23 248.30 


(8.7.1a) 


(8.7.2a) 


(8.7.3a) 
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FIGURA 8.3 
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En las regresiones anteriores, SCR denota la suma de cuadrados residual, y las cifras entre parén- 
tesis son los valores estimados f. 

Una mirada a las regresiones estimadas indica que la relación entre el ahorro y el IPD no es 
la misma en los dos subperiodos. La pendiente en las regresiones anteriores de ahorro-ingreso 
representa la propensión marginal a ahorrar (PMA); es decir, el cambio (medio) en el aho- 
rro como resultado del incremento de un dólar en el ingreso personal disponible. En el periodo 
1970-1981 la PMA fue de casi 0.08, en tanto que para el periodo 1982-1995 fue de casi 0.02. 
Resulta difícil decir si este cambio se debió a las políticas económicas del presidente Reagan. Lo 
anterior indica, además, que quizá no sea adecuada la regresión conjunta (8.7.3a), es decir, la 
que reúne las 26 observaciones y efectúa una regresión común sin tener en cuenta las posibles di- 
ferencias en los dos subperiodos. Por supuesto, las afirmaciones anteriores necesitan justificarse 
por prueba(s) estadistica(s) apropiada(s). A propósito, los diagramas de dispersión y las líneas de 
regresión estimadas se muestran en la figura 8.3. 

Ahora bien, las posibles diferencias —es decir, los cambios estructurales— quizá se deban a 
diferencias en el intercepto o en el coeficiente de la pendiente, o a ambos. ¿Cómo saberlo? De la 
figura 8.3 se obtiene una intuición gráfica. Pero resulta útil contar con una prueba formal. 

Aquí es donde la prueba de Chow muestra su valía.'5 La prueba supone que: 


1. u ~ N(0, 0?) y uz ~ N(0, 0?). Es decir, los términos de error en las regresiones de los sub- 
periodos están normalmente distribuidos con la misma varianza (homoscedástica) o°. 


2. Los dos términos de error (u1 y u2,) están independientemente distribuidos. 
Los mecanismos de la prueba de Chow son los siguientes: 


1. Se estima la regresión (8.7.3), que resulta apropiada si no hay inestabilidad en los paráme- 
tros, y se obtiene SCR; con gl = (nı + m — k), donde k es el número de parámetros estimado, 2 
en este caso. Para el ejemplo, SCR; = 23 248.30. Se llama a SCR; la suma de cuadrados resi- 
dual restringida (SCRp), pues se obtiene al imponer las restricciones que 4; = y1 y A2 = yo; es 
decir, las regresiones de los subperiodos no son diferentes. 


2. Estime (8.7.1) y obtenga su suma de residuos al cuadrado, SCRy, con gl = (nı — k). En el 
ejemplo, SCR; = 1 785.032 y gl = 10. 


3. Estime (8.7.2) y obtenga su suma de residuos al cuadrado, SCR, con gl = (m — k). En el 
ejemplo, SCR= 10 005.22 y gl = 12. 


15 Gregory C. Chow, “Tests of Equality Between Sets of Coefficients in Two Linear Regressions”, Econome- 
trica, vol. 28, núm. 3, 1960, pp. 591-605. 
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4. Como los dos conjuntos de muestras se consideran independientes, se pueden sumar 
SCR; y SCR; para obtener lo que se puede llamar suma de cuadrados residual no restringida 
(SCRypr), es decir: 


SCRyr = SCR; + SCR> con gl = (n +m — 2k) 
En el caso presente, 
SCRyr = (1 785.032 + 10 005.22) = 11 790.252 


5. Ahora bien, la idea que fundamenta la prueba de Chow es que si de hecho no existe un cam- 
bio estructural [es decir, las regresiones (8.7.1) y (8.7.2) son esencialmente las mismas], SCRg y 
SCRagp no deben ser estadísticamente diferentes. Por tanto, si formamos la siguiente razón: 


_ (SCRg—SCRyg)/k 
— (SCRyg)/(n1 +m — 2k) 


Fik irtn-2]] (8.7.4) 


Chow demostró que, según la hipótesis nula, las regresiones (8.7.1) y (8.7.2) son (estadística- 
mente) iguales (es decir, no hay cambios estructurales ni rupturas), así que la razón F dada antes 
sigue una distribución F con k y (nı + m — 2k) gl en el numerador y denominador, respectiva- 
mente. 

6. Por tanto, no rechazamos la hipótesis nula de la estabilidad paramétrica (es decir, no hay 
cambio estructural) si el valor F calculado en la aplicación no excede el valor crítico F obtenido 
de la tabla F en el nivel elegido de significancia (o el valor p). En este caso se justificaría la re- 
gresión conjunta (¿restringida?) (8.7.3). Por el contrario, si el valor F calculado excede el valor 
crítico F, rechazamos la hipótesis de la estabilidad paramétrica y concluimos que las regresiones 
(8.7.1) y (8.7.2) son diferentes, en cuyo caso la regresión conjunta (8.7.3) es de dudoso valor, por 
decir lo menos. 


De regreso al ejemplo, tenemos que 
_ (23 248.50 — 11 790.252)/2 


(11 790.252)/22 (8.7.5) 
= 10.69 


De las tablas F vemos que para 2 y 22 gl el valor crítico F a 1% es de 7.72. Por tanto, la probabi- 
lidad de obtener un valor F igual o mayor que 10.69 es mucho menor que 1%; de hecho, el valor 
p sólo es 0.00057. 

La prueba de Chow, por tanto, parece apoyar la anterior conjetura de que la relación ahorro- 
ingreso sufrió un cambio estructural en Estados Unidos en el periodo 1970-1995, pues da por 
hecho que se satisfacen las suposiciones subyacentes en la prueba. Diremos más al respecto muy 
pronto. 

A propósito, observe que la prueba de Chow se generaliza con facilidad para abarcar casos de 
más de una ruptura estructural. Por ejemplo, si pensamos que la relación ahorro-ingreso cambió 
después de que el presidente Clinton asumió el cargo en enero de 1992, dividimos la muestra en 
tres periodos: 1970-1981, 1982-1991 y 1992-1995, y aplicamos la prueba de Chow. Por supuesto, 
se tendrán cuatro términos SCR, uno para cada subperiodo y otro para todos los datos juntos. 
Pero la lógica de la prueba sigue siendo la misma. Ahora disponemos de los datos para 2007, por 
lo que se puede extender el último periodo hasta ese año. 


Se deben tener presente algunas advertencias respecto de la prueba de Chow: 


1. Las suposiciones en la prueba deben satisfacerse. Por ejemplo, se debe averiguar si las 
varianzas de los errores en las regresiones (8.7.1) y (8.7.2) son las mismas. Analizaremos pronto 
este punto. 
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2. La prueba de Chow dirá sólo si las dos regresiones (8.7.1) y (8.7.2) son diferentes, pero no 
señalará si la diferencia se debe a los interceptos o a las pendientes, o a ambos. Pero en el capítu- 
lo 9, sobre variables dicótomas, veremos cómo responder lo anterior. 


3. La prueba de Chow supone que se conoce(n) el(los) punto(s) de ruptura estructural. En el 
ejemplo anterior supusimos que se dio en 1982. No obstante, si no es posible determinar cuándo 
ocurrió en verdad el cambio estructural, habrá que utilizar otros métodos. !6 


Antes de finalizar con el tema de la prueba de Chow y la regresión ahorro-ingreso, examinare- 
mos una de las suposiciones implícitas en dicha prueba, a saber, que las varianzas de los errores 
en los dos periodos son las mismas. Como no pueden observarse las verdaderas varianzas de 
los errores se pueden obtener sus estimaciones a partir de las SCR dadas en las regresiones 
(8.7.1a) y (8.7.2a), a saber: 


a2 SCR¡ 1 785.032 


ô = = 178.5032 (8.7.6) 
H = 2 10 

2,  SCR¿ 10005.22 

6? = an = 833.7683 (8.7.7) 


ni—2 14-2 


Observe que, como hay dos parámetros estimados en cada ecuación, se resta 2 al número de 
observaciones para obtener los gl. Según los supuestos en la prueba de Chow, 0? y ô? son estima- 
dores insesgados de las verdaderas varianzas de los dos subperiodos. Como resultado, se puede 
probar que si ô? = 63, es decir, las varianzas en las dos subpoblaciones son las mismas (como 


supuso la prueba de Chow), entonces se demuestra que 
6? o? 
Gk] ~ Fi-b,m-k) (8.7.8) 


sigue una distribución F con (nı — k) y (m — k) gl en el numerador y el denominador, respectiva- 
mente (para este ejemplo, k = 2), porque sólo hay dos parámetros en cada subregresión. 
Por supuesto, si 6? = 62, la prueba F anterior se reduce a calcular 


F= (8.7.9) 


Nota: Por convención, se coloca la más grande de las varianzas estimadas en el numerador. (Véase 
el apéndice A para detalles sobre la distribución F y otras distribuciones de probabilidad.) 

Si calculamos esta F en una aplicación y la comparamos con el valor crítico F que tenga los 
apropiados gl, podemos decidir rechazar o no la hipótesis nula de que las varianzas en las dos 
subpoblaciones son las mismas. Si no rechazamos la hipótesis nula se puede utilizar la prueba 
de Chow. 

De nuevo en la regresión ahorro-ingresos, obtenemos el siguiente resultado: 


_ 833.7683 


= 5 = 4.6701 L. 
178.5032 na ea 


Según la hipótesis nula de la igualdad de las varianzas en las dos subpoblaciones, este valor F 
sigue la distribución F con 12 y 10 gl en el numerador y denominador, respectivamente. (Nota: 
Se puso la mayor de las dos varianzas estimadas en el numerador.) De las tablas F del apéndice 
D se ve que los valores críticos F de 5 y 1% para 12 y 10 gl son 2.91 y 4.71, respectivamente. El 


16 Para un análisis detallado, véase William H. Greene, Econometric Analysis, 4a. ed., Prentice Hall, Englewood 
Cliffs, Nueva Jersey, 2000, pp. 293-297. 
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valor calculado F es significativo en el nivel de 5% y es casi significativo en el de 1%. Por tanto, 
la conclusión sería que las varianzas de las dos subpoblaciones no son iguales y, por tanto, en 
sentido estricto, no debemos utilizar la prueba de Chow. 

Aquí el propósito fue presentar el procedimiento de la prueba de Chow más común en el tra- 
bajo aplicado. Si las varianzas de los errores en las dos subpoblaciones son heteroscedásticas, se 
puede modificar la prueba de Chow. Pero el procedimiento trasciende el alcance de este libro.'” 

Otro punto en el que ya hicimos hincapié fue en que la prueba de Chow es sensible a la elec- 
ción del tiempo en que los parámetros de la regresión deben cambiarse. En este ejemplo, supu- 
simos que el cambio tal vez tuvo lugar en la recesión de 1982. Si hubiésemos supuesto que fue 
en 1981, cuando Ronald Reagan comenzó su mandato, se descubriría que el valor F calculado es 
diferente. De hecho, en el ejercicio 8.34 se pide al lector verificar esto. 

Si no deseamos elegir el punto en el que pudo ocurrir la ruptura de la relación subyacente, ele- 
gimos otros métodos, como la prueba residual recursiva. Analizaremos este tema en el capítulo 
13, que trata sobre el análisis de especificación del modelo. 


8.8 Predicción con regresión múltiple 


En la sección 5.10 mostramos que el modelo estimado de regresión con dos variables sirve para 
1) predicción de la media, es decir, predicción puntual sobre la función de regresión poblacional 
(FRP), y también para 2) predicción individual, es decir, predicción de un valor individual de Y, 
dado el valor de la regresora X= Xq, donde Xy es el valor numérico específico de X. 

La regresión múltiple estimada también sirve para fines similares, y el procedimiento para ha- 
cerlo es una extensión directa del caso de dos variables, con excepción de las fórmulas para esti- 
mar la varianza y el error estándar de los valores de pronóstico [comparables a (5.10.2) y (5.10.6) 
del modelo con dos variables], las cuales son más bien complejas y se manejan mejor mediante 
los métodos matriciales estudiados en el apéndice C. Por supuesto, la mayoría del software de 
regresión efectúa esto de manera rutinaria, así que no hay necesidad de recurrir a la formulación 
matricial, la cual se da en el apéndice C para beneficio de los estudiantes con inclinaciones ma- 
temáticas. Ahí también se proporciona un ejemplo completo. 


*8.9 La tríada de las pruebas de hipótesis: razón de verosimilitud 


(RV), de Wald (W) y del multiplicador de Lagrange (ML) 


En este capítulo y en los anteriores utilizamos, generalmente, las pruebas £, F y ji cuadrada para 
probar diversas hipótesis en el contexto de los modelos de regresión lineal (en parámetros). Pero 
una vez que salimos del cómodo mundo de los modelos de regresión lineal, se necesitan métodos 
para probar hipótesis con los que se manejen modelos de regresión, lineales o no lineales. 

Con la conocida tríada de pruebas de verosimilitud, de Wald y del multiplicador de La- 
grange se logra este propósito. Lo interesante es que asintóticamente (es decir, en muestras 


* Opcional. 

17 Para un estudio de la prueba de Chow con heteroscedasticidad, véase William H. Greene, Econometric 
Analysis, 4a. ed., Prentice Hall, Englewood Cliffs, Nueva Jersey, 2000, pp. 292-293, y Adrian C. Darnell, A 
Dictionary of Econometrics, Edward Elgar, Reino Unido, 1994, p. 51. 

18 Véase una exposición sencilla en A. Buse, “The Likelihood Ratio, Wald and Lagrange Multiplier Tests: An 
Expository Note”, American Statistician, vol. 36, 1982, pp. 153-157. 
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grandes) las tres pruebas son equivalentes en cuanto a que la estadística de prueba asociada a 
cada prueba sigue la distribución ji cuadrada. 

Aunque estudiaremos la prueba de la razón de verosimilitud en el apéndice de este capítulo, 
en general no utilizaremos este tipo de pruebas en este libro de texto por la razón pragmática 
de que en muestras pequeñas o finitas, que son las que, por desgracia, maneja la mayoría de los 
investigadores, bastará la prueba F que hemos visto hasta ahora. Como lo anotan Davidson y 
MacKinnon: 


Para modelos de regresión lineal, con errores normales o sin ellos, no hay necesidad de revisar ML, 
W y RV, pues, al hacerlo no se gana información adicional a la contenida en F.!? 


*8.10 Prueba de la forma funcional de la regresión: 


elección entre modelos de regresión lineal y log-lineal 


La selección entre un modelo de regresión lineal (la regresora es una función lineal de las regre- 
soras) o un modelo de regresión log-lineal (el logaritmo de la regresora es función de los logarit- 
mos de las regresoras) es la eterna pregunta en el análisis empírico. Se puede utilizar una prueba 
propuesta por MacKinnon, White y Davidson, que se denomina, por brevedad, prueba MWD, 
para escoger entre los dos modelos.? 

Para ilustrar esta prueba suponga lo siguiente: 


Ho: Modelo lineal: Y es una función lineal de las regresoras, las X. 
Hı: Modelo log-lineal: ln Y es función lineal de los logaritmos de las regresoras, los logaritmos 
de las X. 


donde, como es usual, Ay y H, denotan las hipótesis nula y alterna. 


La prueba MWD comprende los siguientes pasos:?! 


Paso I: Estime el modelo lineal y obtenga los valores Y estimados. Llámelos Yf (es decir, y ). 


Paso II: _Estime el modelo log-lineal y obtenga los valores In Y estimados; denomine In f (es 
decir, ln Y. 


Paso III: Obtenga Z¡ = (In Yf — ln f ). 


Paso IV: Efectúe la regresión de Y sobre las X y Z¡ obtenida en el paso III. Rechace Ho si el 
coeficiente de Z; es estadísticamente significativo mediante la prueba £ usual. 


Paso V: Obtenga Z2 = (antilog de In f — Yf). 


Paso VI: Efectúe la regresión del logaritmo de Y sobre los logaritmos de las X y Z2. Rechace 
H; si el coeficiente de Z, es estadísticamente significativo mediante la prueba £ usual. 


Aunque la prueba MWD parece compleja, su lógica es muy simple. Si el modelo lineal es en rea- 
lidad el modelo correcto, la variable construida Z; no debe ser estadísticamente significativa en 
el paso IV, pues en ese caso los valores Y estimados del modelo lineal y los estimados del modelo 
log-lineal (después de obtener sus valores antilog para efectos comparativos) no deben diferir. El 
mismo comentario vale para la hipótesis alterna H4. 


* Opcional. 


19 Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford University Press, 
Nueva York, 1993, p. 456. 


20 |. Mackinnon, H. White y R. Davidson, “Tests for Model Specification in the Presence of Alternative Hypo- 
thesis: Some Further Results”, Journal of Econometrics, vol. 21, 1983, pp. 53-70. Se propone una prueba 
similar en A. K. Bera y C. M. Jarque, “Model Specification Tests: A Simultaneous Approach”, Journal of Econo- 
metrics, vol. 20, 1982, pp. 59-82. 


21 Este análisis se basa en William H. Greene, ET: The Econometrics Toolkit Version 3, Econometric Software, 
Bellport, Nueva York, 1992, pp. 245-246. 
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EJEMPLO 8.5 
Demanda de rosas 


Consulte el ejercicio 7.16, en el cual se presenta información sobre la demanda de rosas en el 
área metropolitana de Detroit de 1971-IIl a 1975-Il. Para fines ilustrativos consideraremos la 
demanda de rosas como función sólo de los precios de las rosas y de los claveles, y dejaremos 
fuera, por el momento, la variable ingreso. Ahora consideremos los siguientes modelos: 


Modelo lineal: Yı = 01 + 097X2; + 03X3; + Ut (8.10.1) 
Modelo log-lineal: In Y: = B1 + B2 In X2: + B3 IN X3t + ur (8.10.2) 


donde Y es la cantidad de rosas por docenas, X2 es el precio promedio de las rosas al mayoreo 
($/docena) y X; es el precio promedio de los claveles al mayoreo ($/docena). Se espera, a priori, 
que q y B2 sean negativos (¿por qué?), y que «3 y $83 sean positivos (¿por qué?). Como se sabe, 
los coeficientes de pendiente en los modelos log-lineal son coeficientes de elasticidad. 

Los resultados de las regresiones son los siguientes: 


Y:= 9 734.2176 — 3 782.1956X2: + 2 815.2515X3; 


t= (3.3705)  (=6.6069) (2.9712) (8.10.3) 
F= 21.84 R? = 0.77096 


nY; = 9.2278 — 1.7607 InX»z + 1.3398 In Xz 
t= (16.2349) (-5.9044) (2.5407) (8.10.4) 
F= 17.50 R2= 0.7292 


Como lo indican estos resultados, ambos modelos, el lineal y el log-lineal, parecen ajustarse a la 
información razonablemente bien: los parámetros tienen los signos esperados y los valores t y R? 
son estadísticamente significativos. 

Para decidir entre estos modelos con base en la prueba MWD, se prueba primero la hipó- 
tesis de que el modelo verdadero es lineal. Luego, según el paso IV de la prueba, obtenemos la 
siguiente regresión: 


Y += 9 727.5685 — 3 783.0623X2: + 2 817.7157X3: + 85.2319Z1: 
G= (3.2178)  (—6.3337) (2.8366) (0.0207) (8.10.5) 
F=13.44  R?= 0.7707 
Como el coeficiente de Z4 no es estadísticamente significativo (el valor p del t estimado es 0.98), 
no rechazamos la hipótesis de que el verdadero modelo es lineal. 
Suponga que aceleramos el proceso y que el verdadero modelo es log-lineal. Según el paso 
VI de la prueba MWD, obtenemos los siguientes resultados de la regresión: 
ÍnY,= 9.1486 — 1.9699InXı+ 1.5891 InXz— 0.001322 
t=(17.0825) (-6.4189) (3.0728) (+1.6612) (8.10.6) 
ESTARE = 07798 
El coeficiente de Z, es estadísticamente significativo en un nivel de significancia de 12% (el valor 
p es 0.1225). Por consiguiente, podemos rechazar la hipótesis de que el verdadero modelo es 
log-lineal en este nivel de significancia. Por supuesto, si utilizamos los niveles de significancia 
convencionales de 1 y 5%, entonces no podemos rechazar la hipótesis de que el verdadero 


modelo es log-lineal. Como muestra este ejemplo, es muy posible que en una situación dada no 
podamos rechazar una u otra de las especificaciones. 
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Resumen y 1. En este capítulo se extendieron y refinaron las ideas sobre estimación por intervalos y pruebas 
conclüsiónes de hipótesis presentadas en el capítulo 5 en el contexto del modelo de regresión lineal con dos 
variables. 


2. En la regresión múltiple, la prueba de significancia individual de un coeficiente de regresión 
parcial (con la prueba £) y la prueba de la significancia general de la regresión (es decir, Ho: 
todos los coeficientes de pendiente parcial son cero o R? = 0) no son la misma cosa. 

3. En particular, encontrar que uno o más coeficientes de regresión parcial no son estadística- 
mente significativos con base en la prueba ż individual no significa que todos los coeficientes 
de regresión parcial (colectivamente) tampoco sean significativos. Esta última hipótesis sólo 
se prueba mediante la prueba F. 

4. La prueba F tiene gran versatilidad, pues con ella se pueden probar diversas hipótesis, como 
1) si un coeficiente de regresión individual es estadísticamente significativo, 2) si todos los 
coeficientes de pendiente parciales son cero, 3) si dos o más coeficientes son estadísticamente 
iguales, 4) si los coeficientes satisfacen algunas restricciones lineales y 5) si el modelo de 
regresión posee estabilidad estructural. 

5. Como en el caso de dos variables, el modelo de regresión múltiple sirve para fines de predic- 
ción de media y/o individual. 


EJERCICIOS Preguntas 


8.1. Suponga que desea estudiar el comportamiento de las ventas de un producto, por ejemplo, 
automóviles, sobre un número de años, y suponga que alguien sugiere ensayar los siguien- 
tes modelos: 


Y, = Bo + Bit 
Y, = ao +01t + ot? 
donde Y, = ventas en el tiempo tf y t = tiempo, medido en años. El primer modelo postula 


que la variable ventas es una función lineal del tiempo, mientras que el segundo plan- 
tea que es función cuadrática del tiempo. 


a) Analice las propiedades de estos modelos. 
b) ¿Cómo decidiría entre los dos modelos? 
c) ¿En qué situaciones sería útil el modelo cuadrático? 


d) Obtenga información sobre ventas de automóviles en Estados Unidos durante los pasa- 
dos 20 años y vea qué modelo se ajusta mejor a los datos. 


8.2. Demuestre que la razón F de (8.4.16) es igual a la razón F de (8.4.18). (Sugerencia: SCE/ 
SCT = R°.) 


8.3. Demuestre que las pruebas F de (8.4.18) y (8.6.10) son equivalentes. 
8.4. Justifique los supuestos en (8.6.11) y (8.6.12). 
8.5. Considere la función de producción Cobb-Douglas 


Y = pı LKP (1) 


donde Y = producción, L = insumo trabajo y K = insumo capital. Al dividir (1) entre K, 
obtenemos: 


(Y/K) = BL /K)%e KkBt+B1 (2) 
Al tomar el logaritmo natural de (2) tenemos: 


In(Y/K) = Bo + 21n (L/K) + (82 +83 — 1) ln K +u; (3) 
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donde Bo = In 6). 

a) Suponga que tenía información para hacer la regresión (3). ¿Cómo probaría la hipóte- 
sis de que hay rendimientos constantes a escala, es decir, (B2 + 63) = 1? 

b) De existir rendimientos constantes a escala, ¿cómo interpretaría la regresión (3)? 

c) ¿Hay alguna diferencia si divide (1) entre Z en lugar de hacerlo entre K? 

8.6. Valores críticos de R? cuando la verdadera R? = 0. La ecuación (8.4.11) da la relación 
entre F y R? según la hipótesis de que todos los coeficientes de pendiente parciales son 
simultáneamente iguales a cero (es decir, R? = 0). De la misma manera en que podemos 
encontrar el valor F crítico en el nivel de significancia « de la tabla F, es posible encontrar 
el valor R? crítico a partir de la siguiente relación: 


A (k-1)F 
~ (= a= k) 


donde k es el número de parámetros en el modelo de regresión, inclusive el intercepto, 
y donde F es el valor F crítico en el nivel de significancia œ. Si el R? observado excede el 
R? crítico obtenido de la fórmula anterior rechazamos la hipótesis de que el verdadero R? 
es cero. 

Establezca la fórmula anterior y encuentre el valor R? crítico (para œ = 5%) para la 
regresión (8.1.4). 


8.7. Con base en información anual de los años 1968-1987 se obtuvieron los siguientes resul- 
tados de regresión: 


Y, = —-859.92 + 0.6470X», — 23.195X3,  R?=0.9776 (1) 
Y, = —-261.09 + 0.2452X», R? = 0.9388 (2) 


donde Y = gasto de Estados Unidos en bienes importados, miles de millones de dólares 
de 1982, X = ingreso personal disponible, miles de millones de dólares de 1982 y X; = 
variable de tendencia. Cierto o falso: El error estándar de A3 en (1) es 4.2750. Muestre sus 
cálculos. (Sugerencia: Utilice la relación entre R?, F y t.) 


8.8. Suponga que en la regresión 
In(%/X2) = 01 + 0% ln X>; + 03 ln X3; + u; 


se conocen los valores de los coeficientes de regresión y sus errores estándar.* Así, ¿cómo 
estimaría los parámetros y los errores estándar del siguiente modelo de regresión? 


ln Y, = B1 + Ba ln Xz; + p3 ln Xz: + ui 
8.9. Suponga lo siguiente: 
Y; = Pi + P2X2 + P3X3i + P4X2iX3i + ui 


donde Y es el gasto de consumo personal, X es el ingreso personal y X; es la riqueza per- 
sonal.? El término (X2; X3¡) se conoce como término de interacción. ¿Qué significa esta 
expresión? ¿Cómo probaría la hipótesis de que la propensión marginal a consumir (PMC) 
(es decir, £2) es independiente de la riqueza del consumidor? 


* Adaptado de Peter Kennedy, A Guide to Econometrics, the MIT Press, 3a. ed., Cambridge, Massachusetts, 
1992, p. 310. 


t Ibid., p. 327. 
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8.10. 


8.11. 


Se le dan los siguientes resultados de regresión: 


Y, = 16899 DIRO; R? = 0.6149 
= (8.5152) AT) 

P= O42 =I; e lo R? = 0.7706 
t= (3.3705) (6.6070) (2.9712) 


¿Puede encontrar el tamaño de la muestra en la cual se basan estos resultados? (Sugeren- 
cia: Recuerde la relación entre los valores de R?, F y t.) 


Con base en el análisis de pruebas de hipótesis individuales y conjuntas a partir de las 
pruebas f y F respectivamente, ¿cuáles de las siguientes situaciones son probables? 


1. Rechazar la nula conjunta con base en el estadístico F, pero no rechazar cada nula por 
separado con base en las pruebas f individuales. 

2. Rechazar la nula conjunta con base en el estadístico F, rechazar una hipótesis individual 
con base en la prueba £ y no rechazar otras hipótesis individuales con base en la prue- 
ba t. 

3. Rechazar la nula conjunta con base en el estadístico F, y rechazar cada hipótesis nula 
por separado con base en pruebas f individuales. 

4. No rechazar la nula conjunta con base en el estadístico F, y no rechazar cada nula por 
separado con base en las pruebas f individuales. 

5. No rechazar la nula conjunta con base en el estadístico F, rechazar una hipótesis indivi- 
dual con base en una prueba f y no rechazar otras hipótesis individuales con base en la 
prueba f. 

6. No rechazar la nula conjunta con base en el estadístico F, pero rechazar cada nula por 
separado con base en pruebas £ individuales.* 


Ejercicios empíricos 


8.12. 


8.13. 


Consulte el ejercicio 7.21. 


a) ¿Cuáles son las elasticidades del ingreso real y de la tasa de interés de los balances 
reales de efectivo? 

b) ¿Son las elasticidades anteriores, consideradas en forma individual, estadísticamente 
significativas? 

c) Pruebe la significancia general de la regresión estimada. 


d) ¿Esla elasticidad del ingreso de la demanda por balances reales de efectivo significati- 
vamente diferente de la unidad? 


e) ¿Debe conservarse en el modelo la variable tasa de interés? ¿Por qué? 


De los datos de 46 estados de Estados Unidos para 1992, Baltagi obtuvo los siguientes 
resultados de regresión:? 


logC = 4.30 — 1.34 log P + 0.17 log Y 
ee = (0.91) (0.32) (0.20) R? = 0.27 


donde C = consumo de cigarrillos, paquetes al año 
P = precio real por paquete 
Y = ingreso disponible real per cápita 


* Citado de Ernst R. Berndt, The Practice of Econometrics: Classic and Contemporary, Addison-Wesley, Reading, 
Massachusetts, 1991, p. 79. 
t Véase Badi H. Baltagi, Econometrics, Springer-Verlag, Nueva York, 1998, p. 111. 
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a) ¿Cuál es la elasticidad de la demanda para los cigarrillos respecto del precio? ¿Es esta- 
disticamente significativa? Si ése es el caso, ¿es estadísticamente diferente de 1? 

b) ¿Cuál es la elasticidad del ingreso de la demanda de cigarrillos? ¿Es estadísticamente 
significativa? Si no es así, ¿cuáles serían las razones? 

c) ¿Cómo obtendría R? de la R? ajustada dada antes? 


8.14. De una muestra de 209 empresas, Wooldridge obtuvo los siguientes resultados de regre- 
sión:* 


log (salario) = 4.32 + 0.280 log (ventas) + 0.0174 rc + 0.00024 rae 


ee = (0.32) (0.035) (0.0041) (0.00054) 
R? = 0.283 


donde salario = salario del director general 
ventas = ventas anuales de la empresa 
rc = rendimientos del capital, en porcentaje 
rae = rendimientos de las acciones de la empresa 


y donde las cifras entre paréntesis son los errores estándar estimados. 


a) Interprete la regresión anterior tomando en cuenta cualesquiera expectativas que tenga 
respecto de los signos de los distintos coeficientes. 


b) ¿Cuáles de los coeficientes son estadísticamente significativos en lo individual, en el 
nivel de 5%? 

c) ¿Cuál es la significancia general de la regresión? ¿Qué pruebas utilizaría? ¿Por qué? 

d) ¿Puede interpretar los coeficientes rc y rae como coeficientes de elasticidad? ¿Por 
qué? 


8.15. Si se supone que Y y X2, X3, . . . , Xp siguen una distribución normal conjunta y que la 
hipótesis nula plantea que las correlaciones parciales poblacionales son individualmente 
iguales a cero, R. A. Fisher demostró que 


p= PR k=2 


/ 3 
l—=F134.k 


sigue la distribución £ con n — k — 2 gl, donde k es el coeficiente de correlación parcial 
de grado k y n es el número total de observaciones. (Nota: r123 es un coeficiente de corre- 
lación parcial de primer orden, 712.34 es un coeficiente de correlación parcial de segundo 
orden y así sucesivamente.) Consulte el ejercicio 7.2. Si se supone que Y y X) y X; siguen 
una distribución normal conjunta, calcule las tres correlaciones parciales 712.3, 713.2 Y 23.1, 
y pruebe su significancia según la hipótesis de que las correlaciones poblacionales corres- 
pondientes son individualmente iguales a cero. 


8.16. Al estudiar la demanda de tractores agrícolas en Estados Unidos durante los periodos 
1921-1941 y 1948-1957, Griliches? obtuvo los siguientes resultados: 


logY, = constante — 0.519 log X2, — 4.933 log X3: R? = 0.793 
(0.231) (0.477) 


* Véase Jeffrey M. Wooldridge, Introductory Econometrics, South-Western Publishing, 2000, pp. 154-155. 
t Z. Griliches, “The Demand for a Durable Input: Farm Tractors in the United States, 1921-1957”, en The 
Demand for Durable Goods, Arnold C. Harberger (ed.), The University of Chicago Press, Chicago, 1960, 
tabla 1, p. 192. 
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donde Y, = valor de las existencias de tractores en las granjas el 1 de enero, en dólares de 
1935-1939, X = índice de precios pagado por los tractores dividido entre un índice 
de precios recibidos por todas las cosechas en el tiempo t — 1, X; = tasa de interés preva- 
lente en el año £— 1, y los errores estándar están dados entre paréntesis. 


a) Interprete la regresión anterior. 


b) ¿Son los coeficientes de pendiente estimados estadísticamente significativos de manera 
Individual? ¿Son significativamente diferentes de la unidad? 


c) Utilice la técnica de análisis de varianza para probar la significancia de la regresión en 
general. Sugerencia: Utilice la variante R? de la técnica ANOVA. 


d) ¿Cómo calcularía la elasticidad tasa de interés de la demanda de tractores agrícolas? 
e) ¿Cómo probaría la significancia del R? estimado? 


8.17. Considere la siguiente ecuación de determinación de salarios para la economía británica* 
durante el periodo 1950-1969: 


Ñ, = 8.582 + 0.364(PF), + 0.004(PF),_, — 2.560U, 
(1.129) (0.080) (0.072) (0.658) 
R2=0.873  gl=15 


donde W = sueldos y salarios por empleado 
PF = precios del producto final al factor de costo 
U = desempleo en Gran Bretaña como porcentaje del número total de empleados de 
Gran Bretaña 
t = tiempo 
(Las cifras en paréntesis son los errores estándar estimados.) 
a) Interprete la ecuación anterior. 
b) ¿Son los coeficientes estimados individualmente significativos? 
c) ¿Cuál es el razonamiento para introducir (PF);—1? 
d) ¿Debe eliminarse del modelo la variable (PF);—1? ¿Por qué? 
e) ¿Cómo calcularía la elasticidad de sueldos y salarios por empleado respecto de la tasa 
de desempleo U? 


8.18. Una variación de la ecuación de determinación de salarios del ejercicio 8.17 es la si- 
guiente:? 


W,= 1.073 + 5.288V,— 0.116X,+ 0.054M,+ 0.046M,_; 
(0.797) (0.812) (0.111) (0.022) (0.019) 
R?=0.934 gl= 14 


donde W = sueldos y salarios por empleado 
V = empleos vacantes como porcentaje del número total de empleados en Gran 
Bretaña 
X = producto interno bruto por persona empleada 
M = precios de importaciones 


Mı = precios de importaciones en el año anterior (o rezagado) 


(Los errores estándar estimados están dados entre paréntesis.) 


* Tomado de Prices and Earnings in 1951-1969: An Econometric Assessment, Departamento de Empleo, 
HMSO, 1971, ecuación (19), p. 35. 


Y Ibid., ecuación (67), p. 37. 


8.19. 


8.20. 


8.21. 


8.22. 


8.23. 


8.24. 
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a) Interprete la ecuación anterior. 


b) ¿Cuáles de los coeficientes estimados son estadísticamente significativos individual- 
mente? 


c) ¿Cuál es el razonamiento para la introducción de la variable X? A priori, ¿se espera que 
el signo de X sea negativo? 


d) ¿Cuál es el propósito de incluir M, y M,—1 en el modelo? 
e) ¿Cuáles variables pueden sacarse del modelo? ¿Por qué? 
J) Pruebe la significancia general de la regresión observada. 


Para la función de demanda de pollos estimada en (8.6.24), ¿es la elasticidad ingreso esti- 
mada igual a 1? ¿Es la elasticidad precio igual a —1? 


Para la función de demanda (8.6.24), ¿cómo probaría la hipótesis de que la elasticidad 

ingreso es igual en valor pero opuesta en signo a la elasticidad precio de la demanda? 

Muestre los cálculos necesarios. (Nota: cov B2, $3] = —0.00142.) 

Consulte la función de demanda de rosas del ejercicio 7.16. Centre su atención en la espe- 

cificación logarítmica. 

a) ¿Cuál es la elasticidad precio-propio de la demanda estimada (es decir, la elasticidad 
respecto del precio de las rosas)? 

b) ¿Es estadísticamente significativa? 

c) De ser así, ¿es significativamente diferente de la unidad? 


d) A priori, ¿cuáles son los signos esperados de X; (precio de los claveles) y X4 (Ingreso)? 
¿Corresponden los resultados empíricos a estas expectativas? 


e) Silos coeficientes de X; y X4 no son estadísticamente significativos, ¿cuáles pueden ser 
las razones? 
Consulte el ejercicio 7.17, relacionado con la actividad de exploración de pozos. 


a) ¿Es cada uno de los coeficientes de pendiente estimados estadísticamente significativo 
individualmente en el nivel de 5%? 

b) ¿Rechazaría la hipótesis de que R? = 0? 

c) ¿Cuál es la tasa de crecimiento instantánea de la actividad de exploración durante el 
periodo 1948-1978? ¿Cuál es la tasa de crecimiento compuesta correspondiente? 

Consulte los resultados de la regresión de los gastos de presupuesto de defensa de Estados 

Unidos estimada en el ejercicio 7.18. 

a) Comente, en términos generales, los resultados de regresión estimados. 

b) Prepare la tabla ANOVA y pruebe la hipótesis de que todos los coeficientes de pen- 
diente parciales son iguales a cero. 


La siguiente función se conoce como la función de producción trascendental (FPT), 
generalización de la conocida función de producción Cobb-Douglas: 


Y = BLE pb ebl+BsK 


donde Y = producción, L = insumo trabajo y K = insumo capital. 
Después de tomar logaritmos y de sumar el término de perturbación estocástico, obtene- 
mos la FPT estocástica como 


In Y; = Bo + B2InL;+ P3InK, + BaL; + BsK; + u; 


donde Bo = In £1. 
a) ¿Cuáles son las propiedades de esta función? 


b) Para reducir la FPT a la función de producción Cobb-Douglas, ¿cuáles deben ser los 
valores de 64 y Bs? 
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c) Si tuviera la información, ¿cómo haría para encontrar la forma en la que la FPT se 
reduce a la función de producción Cobb-Douglas? ¿Qué procedimiento de prueba uti- 
lizaría? 

d) Verifique si la FPT se ajusta a los datos de la tabla 8.8. Muestre sus cálculos. 


8.25. Precios de energía y formación de capital: Estados Unidos, 1948-1978. Para probar la 
hipótesis de que un aumento en el precio de la energía relativo a la producción provoca 
un descenso en la productividad del capital existente y de los recursos laborales, John A. 
Tatom estimó la siguiente función de producción para Estados Unidos, durante el periodo 
trimestral 1948-I a 1978-I1:* 


n(/0= 15492 + 0.7135 In(h/k)— 0.1081 In(P./P) 


(16.33) (21.69) (6.42) 
+  0.00451 R? = 0.98 
(15.86) 


donde y = producción real en el sector de negocios privado 
k = una medida del flujo de servicios de capital 
h = horas por persona en el sector de negocios privado 
P, = índice de precios al productor para combustible y productos relacionados 
P = deflactor de precios del sector de negocios privado 
t = tiempo 


Los números en paréntesis son los estadísticos f. 
a 
b 


= 


¿Apoyan los resultados la hipótesis del autor? 


== 


Entre 1972 y 1977, el precio relativo de la energía (P,/P) aumentó 60%. A partir de la 
regresión estimada, ¿cuál es la pérdida en productividad? 


C 


== 


Después de permitir los cambios en (4/k) y (P/P), ¿cuál fue la tendencia de la tasa de 
crecimiento de la productividad durante el periodo muestral? 


d) ¿Cómo interpreta el valor del coeficiente de 0.7135? 
e 


== 


¿El hecho de que cada coeficiente de pendiente parcial estimado sea estadísticamente 
significativo en el nivel individual (¿por qué?) significa que podemos rechazar la hipó- 
tesis de que R? = 0? ¿Por qué? 


8.26. La demanda de cable. La tabla 8.10 presenta los datos de un fabricante de cable telefó- 
nico para pronosticar las ventas a uno de sus principales clientes durante el periodo 1968- 
1983.14 

Las variables en la tabla se definen de la siguiente forma: 


Y = ventas anuales en millones de pies de cables pareados (MPC) 
X = Producto Interno Bruto (PIB), $, miles de millones 
X3 = construcción de nuevas viviendas, miles de unidades 
X4 = tasa de desempleo, % 
X; = tasa preferencial rezagada 6 meses 


X¿= ganancias de línea para el cliente, % 


* Consulte “Energy Prices and Capital Formation: 1972-1977”, Review, Banco de la Reserva Federal de 
St. Louis, vol. 61, núm. 5, mayo de 1979, p. 4. 
t El autor agradece a Daniel J. Reardon por recopilar y procesar los datos. 
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TABLA 8.10 Variables de regresión 

Año X2, X3, Xa, Xs, X6, Y, 
PIB construcción desempleo tasa ganancias ventas 
de nuevas % preferencial, línea cliente, anuales 
viviendas rezago % (MPF) 

6 meses 

1968 1 051.8 1 503.6 3.6 5.8 5.9 5 873 
1969 1 078.8 1 486.7 3.5 6.7 4.5 7 852 
1970 1 075.3 1 434.8 5.0 8.4 4.2 8 189 
1971 1 107.5 2 035.6 6.0 6.2 4.2 7 497 
1972 1171.1 2 360.8 5.6 5.4 4.9 8 534 
1973 1 235.0 2 043.9 4.9 5.9 5.0 8 688 
1974 1 217.8 1 331.9 5.6 9.4 4.1 7 270 
1975 1 202.3 1 160.0 8.5 9.4 3.4 5 020 
1976 1 271.0 1 535.0 7.7 72 4.2 6 035 
1977 1 332.7 1 961.8 7.0 6.6 4.5 7 425 
1978 1 399.2 2 009.3 6.0 7.6 30 9 400 
1979 1 431.6 1721.9 6.0 10.6 4.4 9 350 
1980 1 480.7 1 298.0 7.2 14.9 3.9 6 540 
1981 1 510.3 1 100.0 7.6 16.6 3.1 7 675 
1982 1 492.2 1 039.0 9.2 17.5 0.6 7 419 
1983 1 535.4 1 200.0 8.8 16.0 1.5 7923 


Considere el siguiente modelo: 
Y; = Bi + B2X2 + P3X3t + PaXar + BsX51 + BoXor + ur 


a) Estime la regresión anterior. 

b) ¿Cuáles son los signos esperados para los coeficientes de este modelo? 

c) ¿Corresponden los resultados empíricos a las expectativas a priori? 

d) ¿Son los coeficientes de regresión parcial estimados estadísticamente significativos 
considerados en forma individual en el nivel de 5% de significancia? 

e) Suponga que efectúa la regresión de Y sobre X2, X3 y X4 solamente y luego decide 
agregar las variables X; y X¿. ¿Cómo averiguará si se justifica agregar las variables X5 
y Xe? ¿Qué prueba utiliza? Muestre los cálculos necesarios. 


8.27. Marc Nerlove estimó la siguiente función de costo para la generación de electricidad: * 
Y = AXP PU Po py (1) 


donde Y = costo total de producción 
X = producción en horas kilowatt 
Py = precio del insumo trabajo 
Pa = precio del insumo capital 
P3 = precio del combustible 
u = término de perturbación 


* Marc Nerlove, “Returns to Scale in Electric Supply”, en Carl Christ (ed.), Measurement in Economics, Stan- 
ford University Press, Palo Alto, California, 1963. La notación cambió. 


270 


Parte Uno Modelos de regresión uniecuacionales 


En teoría, se espera que la suma de las elasticidades del precio sea igual a la unidad, es 
decir, (%1 + 07 + 03) = 1. Pero al imponer esta restricción, la función de costos anterior se 
escribe como 


(Y/B) = AX’ (Py / Ps) (Pa / Py) Pu (2) 


En otras palabras, (1) es una función de costo no restringida y (2) es una función de costo 
restringida. 

Con base en una muestra de 29 empresas de tamaño mediano y después de realizar la 
transformación logarítmica, Nerlove obtuvo los siguientes resultados de la regresión: 


Ín Y, = -4.93 + 0.94InX,+ 0.31 InP; 


ee= (1.96) (0.11) (0.23) 6) 
—0.26 In Pa + 0.44 In P3 
(0.29) (0.07) SCR = 0.336 
In(Y/P3)= —6.55 + 0.91 InX+ 0.51 In (Pı/P3)+ 0.09 In (P2/P3) 
ee= (0.16) (0.11) (0.19) (0.16) SCR = 0.364 
(4) 


a) Interprete las ecuaciones (3) y (4). 


b) ¿Cómo averiguaría si la restricción (a, + 7 + 03) = 1 es válida? Muestre sus cálcu- 
los. 


. Estimación del modelo de asignación de precios de activos de capital (CAPM). En la sec- 


ción 6.1 consideramos brevemente el conocido modelo de asignación de precios de activos 
de capital de la teoría moderna de portafolios. En el análisis empírico, el CAPM se estima 
en dos etapas. 


Etapa I (Regresión de serie de tiempo). Para cada uno de los N títulos incluidos en la 
muestra efectuamos la siguiente regresión a través del tiempo: 


Ri = O e (1) 


donde R; y Rm son las tasas de rendimiento del i-ésimo título y el portafolios del mercado 
(por ejemplo, el S&P 500) en el año t; Bi, como ya vimos, es el coeficiente beta o coefi- 
ciente de volatilidad del mercado del ¡-ésimo título y e; son los residuos. En total hay N 
regresiones, una para cada título, y se producen, por consiguiente, M valores estimados 
para B;. 


Etapa II (Regresión transversal). En esta etapa efectuamos la siguiente regresión para 
los N títulos: 


Ri = ĵi + Pĝ: + ui (2) 
donde R; es el promedio o tasa media de rendimiento para el título i, calculado sobre el 
periodo muestral cubierto por la etapa I, £; es el coeficiente beta estimado de la regresión 
de la primera etapa y u; es el término residual. 

Al comparar la regresión (2) de la segunda etapa con el CAPM, ecuación (6.1.2), escrita 
como 


ER; = rf + Bi(ER — rf) (3) 


donde ry es la tasa de rendimiento libre de riesgo, vemos que 7, es una estimación de ry 
y es p, una estimación de (ER ,, — ry), la prima del riesgo del mercado. 


8.29. 


8.30. 
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Así, en la prueba empírica de CAPM, R; y Bi se utilizan como estimadores de ER, y 6; 


respectivamente. Ahora, si se mantiene CAPM, estadísticamente, 


Y ="r 
Po = Rm — rp, el estimador de (ER n — ryf) 


Considere ahora otro modelo: 


Ri = ĵi ++ + ui (4) 


donde De es la varianza residual del ¿-ésimo título de la regresión de la primera etapa. En- 
tonces, si CAPM es válido, y3 no debe ser significativamente diferente de cero. 


Para probar el CAPM, Levy efectuó las regresiones (2) y (4) sobre una muestra de 101 


acciones durante el periodo 1948-1968 y obtuvo los siguientes resultados:* 


a) 


b) 


c) 


d) 


e) 


R= 0O E 00376 


(0.009) (0.008) (2y 
EA CA R=0.21 
RŘi= 0.106 + 0.0024f; + 0.20152, 
(0.008) (0.007) (0.038) (4) 
ES (5.3) R =0.39 


¿Apoyan estos resultados el CAPM? 

¿Se justifica agregar la variable s al modelo? ¿Cómo sabe? 

Si el CAPM se mantiene, $, en (2y debe aproximar el valor promedio de la tasa libre 
de riesgo ry. El valor estimado es 10.9%. ¿Parece una estimación razonable de la tasa de 
rendimiento libre de riesgo durante el periodo de observación, 1948-1968? (Se pue- 
de considerar la tasa de rendimiento de los bonos del Tesoro o de un activo libre de 
riesgo relativamente parecido.) 

Si el CAPM se mantiene, la prima de riesgo del mercado (R „m — r f) de (2) es cerca de 
3.7%. Si se supone que ryes 10.9%, esto implica que R m para el periodo de la muestra 
fue aproximadamente 14.6%. ¿Parece una estimación razonable? 

¿Qué puede decir sobre el CAPM en general? 


Consulte el ejercicio 7.21c. Ahora que ya cuenta con las herramientas necesarias, ¿cuál(es) 
prueba(s) utilizaría(n) para elegir entre los dos modelos? Muestre los cálculos necesarios. 
Observe que las variables dependientes en los dos modelos son distintas. 


Consulte el ejemplo 8.3. Utilice la prueba f, como se muestra en (8.6.4), para averiguar 


si 


hubo rendimientos constantes a escala en la economía mexicana para el periodo de 


estudio. 


. Vuelva al ejemplo de la mortalidad infantil que estudiamos en diversas ocasiones. La re- 


gresión (7.6.2) se llevó a cabo para la mortalidad infantil (MI) sobre el PIB per cápita 
(PIBPC) y la tasa de alfabetización de las mujeres (TAM). Ahora extienda este modelo 


* H. Levy, “Equilibrium in an Imperfect Market: A Constraint on the Number of Securities in the Portfolio”, 
American Economic Review, vol. 68, núm. 4, septiembre de 1978, pp. 643-658. 
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para incluir la tasa de fecundidad total (TFT). Los datos de todas estas variables ya se 
dieron en la tabla 6.4. Reproducimos la regresión (7.6.2) y presentamos los resultados del 
modelo de regresión extendido: 


1. MI; = 263.6416 — 0.0056 PIBPC;— 2.2316 TAM; 


ee = (11.5932) (0.0019) (0.2099) R? = 0.7077 
2. MI, = 168.3067 — 0.0055 PIBPC;— 1.7680 TAM; + 12.8686 TFT; 
ee = (32.8916) (0.0018) (0.2480) D) 
R? = 0.7474 


a) ¿Cómo interpretaría el coeficiente de TFT? A priori, ¿esperaría una relación positiva o 
negativa entre MI y TFT? Justifique su respuesta. 

b) ¿Los valores de los coeficientes de PIBPC y TFT cambiaron entre ambas ecuaciones? 
Si así fue, ¿cuál(es) sería(n) la(s) razón(razones) de ese cambio? ¿La diferencia que se 
observa es estadísticamente significativa? ¿Qué prueba utilizaría y por qué? 

c) ¿Cómo elegiría entre los modelos 1 y 2? ¿Qué prueba estadística emplearía para res- 
ponder esta pregunta? Muestre los cálculos necesarios. 


d) No se ha proporcionado el error estándar del coeficiente de TFT. ¿Puede calcularlo? 
(Sugerencia: Recuerde la relación entre las distribuciones t y F.) 


. Consulte el ejercicio 1.7, en el que se dieron datos sobre los impactos publicitarios que se 


recuerdan y los gastos publicitarios para una muestra de 21 empresas. En el ejercicio 5.11 
se pidió graficar esos datos y elaborar un modelo apropiado sobre la relación entre dichas 
variables. Con Y como los impactos publicitarios recordados y X el gasto publicitario, se 
obtuvieron las siguientes regresiones: 

Modelo I: Y; = 22.163 + 0.3631X; 


ee = (7.089) (0.0971) r? = 0.424 


Modelo II: Y, = 7.059 + 1.0847X;— 0.0040X? 
(9.986) (0.3699) (0.0019) R= 0.53 


ee 


a 
b 
c 


d 


S 


Interprete ambos modelos 


= 


¿Cuál es el mejor modelo y por qué? 


== 


¿Qué prueba(s) estadística(s) utilizaría para elegir entre los dos modelos? 


— 


¿Hay “rendimientos decrecientes” del gasto publicitario?, es decir, ¿después de un de- 
terminado nivel de gasto publicitario (el nivel de saturación) ya no conviene gastar en 
publicidad? ¿Puede descubrir cuál sería ese nivel de gasto? Muestre los cálculos nece- 
sarios. 


. En la regresión (7.9.4) presentamos los resultados de la función de producción Cobb-Dou- 


glas ajustados al sector manufacturero de los 50 estados de Estados Unidos y Washington, 
D.C., para 2005. Con base en esa regresión determine si hay rendimientos constantes a 
escala en ese sector, mediante: 


a 


= 


La prueba £ dada en (8.6.4). La covarianza entre los dos estimadores de pendiente es 
—0.03843. 


La prueba F dada en (8.6.9). 


¿Existe alguna diferencia en los resultados de estas dos pruebas? ¿Cuál es su conclu- 
sión respecto de los rendimientos a escala en el sector manufacturero de los 50 estados 
y Washington, D.C., en el periodo de muestra? 


b 
Cc 


== 
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8.34. Reconsidere la regresión ahorro-ingreso de la sección 8.7. Suponga que dividimos la 


8.35. 


8.36. 


muestra en dos periodos: 1970-1982 y 1983-1995. Mediante la prueba de Chow determine 
si existe un cambio estructural en la regresión ahorro-ingreso para los dos periodos. Al 
comparar los resultados con los obtenidos en la sección 8.7, ¿qué conclusiones generales 
deduce respecto de la sensibilidad de la prueba de Chow a la elección del punto crítico que 
divide la muestra en dos (o más) periodos? 


Consulte el ejercicio 7.24 y los datos de la tabla 7.12 relativos a cuatro variables económi- 
cas en Estados Unidos durante el periodo 1947-2000. 


a) Con base en la regresión del gasto de consumo sobre el ingreso real, la riqueza real 
y la tasa de interés real, averigüe qué coeficientes de regresión son estadísticamente 
significativos, en lo individual, en el nivel de significancia de 5%. ¿Los signos de los 
coeficientes estimados concuerdan con la teoría económica? 


b) Con base en los resultados de a), ¿cómo estimaría las elasticidades del ingreso, riqueza 
y tasa de interés? ¿Qué información adicional, si acaso, necesita para calcular las elas- 
ticidades? 


c) ¿Cómo probaría la hipótesis de que las elasticidades del ingreso y la riqueza son igua- 
les? Muestre los cálculos necesarios. 


d) Suponga que en lugar de la función lineal de consumo que estimó en a), hace la re- 
gresión del logaritmo del gasto de consumo sobre los logaritmos del ingreso y de la 
riqueza y la tasa de interés. Obtenga los resultados de la regresión. ¿Cómo interpretaría 
estos resultados? 


e) ¿Cuáles son las elasticidades del ingreso y la riqueza estimadas en d)? ¿Cómo inter- 
preta el coeficiente de la tasa de interés estimado en d)? 


J) En la regresión realizada en d), ¿pudo haber usado el logaritmo de la tasa de interés en 
lugar de la tasa de interés? ¿Por qué? 

g) ¿Cómo compara las elasticidades estimadas en b) y en d)? 

h) Entre los modelos de regresión estimados en a) y d), ¿cuál preferiría? ¿Por qué? 

i) Suponga que en lugar de estimar el modelo dado en d), sólo hace la regresión del lo- 
garitmo del gasto de consumo sobre el logaritmo del ingreso. ¿Cómo decidiría si vale 
la pena agregar el logaritmo de la riqueza al modelo? ¿Y cómo decidiría si vale la pena 
agregar tanto el logaritmo de la riqueza como la tasa de interés al modelo? Muestre los 
cálculos necesarios. 


Consulte la sección 8.8 y los datos de la tabla 8.9 relativos al ingreso personal disponible y 

el ahorro personal durante el periodo 1970-1995. En esa sección se introdujo la prueba de 

Chow para ver si ocurría un cambio estructural dentro de los datos entre dos periodos. La 

tabla 8.11 incluye datos actualizados con los valores de 1970-2005. Según el National Bu- 

reau of Economic Research, el ciclo de contracción del sector empresarial estadounidense 

más reciente terminó a finales de 2001. Divida los datos en tres secciones: 1) 1970-1981, 

2) 1982-2001 y 3) 2002-2005. 

a) Estime tanto el modelo correspondiente al conjunto completo de datos (años 1970- 
2005) como el correspondiente a la tercera sección (a partir de 2002). Use la prueba 
de Chow para determinar si existe una ruptura significativa entre el tercer periodo y el 
conjunto completo de datos. 


b) Con los nuevos datos de la tabla 8.11 determine si todavía existe diferencia significa- 
tiva entre el primer grupo de años (1970-1981) y el conjunto completo de datos ahora 
que dispone de más observaciones. 


c) Ejecute la prueba de Chow con el periodo intermedio (1982-2001) en relación con el 


conjunto completo de datos para ver si los datos de este periodo muestran diferencias 
significativas respecto del resto de los datos. 
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TABLA 8.11 


- Año Ahorro Ingreso 

Ahorro e ingreso per- 
sonal disponible (miles 1970 69.5 735.7 
de millones de dólares), 1971 80.6 801.8 
Estados Unidos, 1972 772 869.1 
1970-2005 (miles de mi- 1973 102.7 978.3 
llones de dólares, salvo 1974 113.6 1 071.6 
que se indique otra cosa; 1975 125.6 1 187.4 
datos trimestrales con 1976 122.3 13025 
tasas anuales ajustadas 1977 125.3 1 435.7 
por estacionalidad) 1978 142.5 1 608.3 
1979 1581 1 793.5 
Fuente: Department of 1980 201.4 2 009.0 
dd Bureau of Economic 1981 244.3 2 246.1 
1982 270.8 2 421.2 
1983 233.6 2 608.4 
1984 314.8 2 912.0 
1985 280.0 301093 
1986 268.4 3 285.1 
1987 241.4 3 458.3 
1988 272-9. 3 748.7 
1989 287.1 4 021.7 
1990 299.4 4 285.8 
1991 324.2 4 464.3 
1992 366.0 4 751.4 
1993 284.0 4 911.9 
1994 249.5 SANS 
1995 250.9 5 408.2 
1996 228.4 5 688.5 
1997 218.3 5 988.8 
1998 276.8 6 395.9 
1999 158.6 6 695.0 
2000 168.5 7 194.0 
2001 11825 7 486.8 
2002 184.7 7 830.1 
2003 174.9 8 162.5 
2004 174.3 8 681.6 
2005 34.8 9 036.1 


*Apéndice 8A2 


Prueba de la razón de verosimilitud (RV) 


La prueba de la RV se basa en el principio de máxima verosimilitud (MV) estudiado en el apéndice 4A, en 
el cual se muestra la forma de obtener los estimadores de MV del modelo de regresión con dos variables. 
Ese principio puede extenderse directamente al modelo de regresión múltiple. Conforme al supuesto de que 
las perturbaciones u; están normalmente distribuidas, se muestra que para el modelo de regresión con dos 
variables los estimadores de MCO y MV de los coeficientes de regresión son idénticos, pero las varianzas 


* Opcional. 
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del error estimado son diferentes. El estimador de MCO de 0? es Y 0? /(n — 2), pero el estimador MV es 
y f /n, el primero insesgado y el último sesgado, aunque en muestras grandes el sesgo tiende a desapa- 
recer. 

Sucede lo mismo en la regresión múltiple. Para ilustrar lo anterior considere el modelo de regresión de 
tres variables: 


Y; = pı + B2X2 + P3X3; + üi (1) 


Correspondiente a la ecuación (5) del apéndice 4A, el logaritmo de la función de verosimilitud para el 
modelo (1) se expresa así: 


1 
MFV = -7 n(o) — Z mnr) - 7 X (Ëi - bi - boXai = BX) (2) 


Como se muestra en el apéndice 4A, al diferenciar esta función respecto de 81, B2, 63 y o°, igualar la expre- 
sión resultante a cero y resolver, se obtienen los estimadores de MV de tales estimadores. Los estimadores 
de MV de £1, B2 y B3 serán idénticos a los estimadores de MCO, que ya se dieron en las ecuaciones (7.4.6) 
a (7.4.8), pero la varianza del error será diferente, pues la suma de cuadrados residual (SCR) estará dividida 
por n, en vez de (n — 3), como en el caso de MCO. 

Ahora, supongamos que la hipótesis nula Ap es que £3, el coeficiente de X3, es cero. En este caso, el log 
FV dado en (2) se convierte en 


n n 1 
In FV = 7 no?) a In (27) 7 NE n= (2300 (3) 


La ecuación (3) se conoce como el logaritmo de la función de verosimilitud restringida (LFVR) por esti- 
marse con la restricción de que a priori $3 es cero, mientras que la ecuación (2) se conoce como el logaritmo 
de la función de verosimilitud no restringida (LFVNR), porque no se impusieron restricciones a priori 
sobre los parámetros. Para probar la validez de la restricción a priori de que $; es cero, la prueba de la RV 
produce el siguiente estadístico de prueba: 


à = 2(LFVNR — LFVR) (4)* 


donde LFVNR y LFVR son el logaritmo de la función de verosimilitud no restringida [ecuación (2)] y el 
logaritmo de la función de verosimilitud restringida [ecuación (3)], respectivamente. Si el tamaño de la 
muestra es grande, puede demostrarse que el estadístico de prueba 4 dado en (4) sigue una distribución ji 
cuadrada (x°) con un número de gl igual al número de restricciones impuestas según la hipótesis nula, 1 en 
el presente caso. 

La idea básica de la prueba de la RV es simple: si la(s) restricción(restricciones) a priori e (son) válida(s), 
los (log) FV restringida y no restringida no deben ser diferentes, en cuyo caso À en (4) será cero. Pero si ése 
no es el caso, las dos FV divergirán. Como cuando la muestra es grande A sigue una distribución ji cuadrada, 
es posible averiguar si la divergencia es estadísticamente significativa, por ejemplo, en un nivel de signifi- 
cancia de 1 o 5%. O de lo contrario, podemos encontrar el valor p de la A estimada. 

Ilustremos la prueba de la RV con el ejemplo de mortalidad infantil. Si se hace la regresión de la morta- 
lidad infantil (MI) sobre el PIB per cápita (PIBPC) y la tasa de alfabetización de las mujeres (TAM), como 
en (8.1.4), obtenemos una LFVNR de —328.1012, pero si sólo hacemos la regresión de MI sobre PIBPC, 
obtenemos una LFVR de —361.6396. En valor absoluto (es decir, sin considerar los signos), el primero es 
menor que el segundo, lo cual tiene sentido, pues tenemos una variable adicional en el primer modelo. 

La cuestión ahora es si vale la pena añadir la variable TAM. Si no es así, los logaritmos de FV restrin- 
gida y FV no restringida no diferirán mucho, pero, en caso contrario, los logaritmos de las FV serán muy 
distintos. Para apreciar si esta diferencia es estadísticamente significativa, utilizaremos la prueba de la RV 
dada en (4), lo cual origina: 


A = 2[-328.1012 — (-361.6396)] = 67.0768 


* Esta expresión también se expresa como —2(LFVR — LFVNR) o —2 In(FVR/FVNR). 
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Asintóticamente, su distribución es igual a la ji cuadrada con 1 gl (porque sólo se tiene una restricción im- 
puesta cuando se omite la variable TAM del módulo completo). El valor p de obtener tal valor ji cuadrada 
para 1 gl es casi cero, lo cual lleva a la conclusión de que la variable TAM no debe excluirse del modelo. En 
otras palabras, la regresión restringida en el presente ejemplo no es válida. 

Si SCRR y SCRNR representan las sumas de cuadrados residuales restringida y no restringida, la ecua- 
ción (4) también se expresa como: 


—2 In à = n(In SCRR — In SCRNR) (5) 


que está distribuida como x? con r grados de libertad, donde r es el número de restricciones impuestas al 
modelo (es decir, el número de coeficientes r omitidos del modelo original). 
Aunque no es posible estudiar en detalle las pruebas de Wald y MV, estas pruebas pueden aplicarse como 


sigue: 
— K)\(SCRR — SCRNR 
Ea aa E e (6) 
SCRNR 
—k SCRR — SCRNR 
Estadístico del multiplicador de Lagrange (ML) = ds Ba L CRR ) S X (7) 


donde k es el número de regresoras en el modelo sin restricciones y r es el número de restricciones. 

Como puede observar en las ecuaciones anteriores, las tres pruebas son asintóticamente (es decir, en 
muestras grandes) equivalentes: producen respuestas similares. Sin embargo, las respuestas pueden diferir 
en muestras pequeñas. Existe una relación interesante entre estos estadísticos en que se puede demostrar 
que: 


W =RV => ML 


Por tanto, en muestras pequeñas, se puede rechazar una hipótesis con el estadístico de Wald, pero no con el 
estadístico del ML.* 

Como se señaló en el texto, para casi todos los propósitos de este estudio bastan las pruebas t y F. Pero 
las tres pruebas analizadas antes tienen aplicabilidad general en el sentido de probar hipótesis no lineales en 
modelos lineales, o probar restricciones sobre matrices de varianza-covarianza. También pueden aplicarse 
en situaciones donde no se sostiene el supuesto de que los errores están distribuidos normalmente. 

Debido a la complejidad matemática de las pruebas de Wald y ML, no profundizaremos más aquí. Pero, 
como se anotó, asintóticamente las pruebas RV, Wald y ML producen respuestas idénticas; la elección entre 
una u otra prueba depende de la conveniencia computacional. 


* Para una explicación, véase G.S. Maddala, Introduction to Econometrics, 3a. ed., John Wiley £ Sons, Nueva 
York, 2001, p. 177. 


Capítulo 


Modelos de 
regresión 

con variables 
dicótomas 


En el capítulo 1 analizamos brevemente los cuatro tipos de variables que por lo general se en- 
cuentran en el análisis empírico: escala de razón, escala de intervalo, escala ordinal y escala 
nominal. Los tipos de variables de los capítulos anteriores fueron en esencia en escala de razón. 
Pero esto no debe dar la impresión de que los modelos de regresión sólo tratan con variables en 
escala de razón. Los modelos de regresión también trabajan con los demás tipos de variables que 
acabamos de mencionar. En este capítulo consideraremos modelos que tal vez no sólo tengan va- 
riables en escala de razón, sino también variables en escala nominal. Estas variables también se 
conocen como variables indicadoras, variables categóricas, variables cualitativas o variables 
dicótomas.' 


9.1 Naturaleza de las variables dicótomas 


En el análisis de regresión, la variable dependiente o regresada a menudo acusa influencia no sólo 
de variables en escala de razón (por ejemplo: ingreso, producción, precios, costos y estatura), 
sino también de variables cualitativas por naturaleza, o de escala nominal (como sexo, raza, 
color, religión, nacionalidad, región geográfica, cambios políticos y afiliación partidista). Por 
ejemplo, con los demás factores constantes, se ha visto que las trabajadoras ganan menos que sus 
pares masculinos, y que las personas de color ganan menos que las blancas.? Este patrón puede 
resultar de la discriminación sexual o racial, pero cualquiera que sea la razón, las variables cua- 
litativas, como sexo y raza, sí influyen en la variable dependiente y es claro que deben incluirse 
en las explicativas, o regresoras. 

Como tales variables suelen indicar la presencia o ausencia de una “cualidad” o atributo, como 
femenino o masculino, negro o blanco, católico o no católico, demócrata o republicano, son va- 
riables en escala nominal esencialmente. Una manera de “cuantificar” tales atributos es mediante 
variables artificiales que toman los valores 0 o 1, donde 1 indica la presencia (o posesión) de ese 
atributo y 0 su ausencia. Por ejemplo, 1 puede indicar que una persona es de sexo femenino y 
0 que es de sexo masculino; o 1 puede indicar que una persona se graduó en la universidad y 0 
que no lo ha hecho, y así en cada caso. Las variables que adquieren tales valores O y 1 se llaman 


1 Analizaremos las variables en escala ordinal en el capítulo 15. 


2 Hay una revisión de la demostración de este tema en Bruce E. Kaufman y Julie L. Hotchkiss, The Economics 
of Labor Market, 5a. ed., Dryden Press, Nueva York, 2000. 
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variables dicótomas.* Tales variables son, por tanto, en esencia, un recurso para clasificar datos 
en categorías mutuamente excluyentes, como masculino o femenino. 

Las variables dicótomas pueden utilizarse en los modelos de regresión en forma tan fácil 
como las variables cuantitativas. De hecho, un modelo de regresión puede contener variables ex- 
plicativas exclusivamente dicótomas o cualitativas, por naturaleza. Tales modelos se denominan 
modelos de análisis de varianza (ANOVA).* 


9.2 Modelos ANOVA 


Para ilustrar los modelos ANOVA, considere el siguiente ejemplo. 


EJEMPLO 9.1 
Salarios de maes- 
tros de escuelas 
públicas por región 
geográfica 


La tabla 9.1 proporciona datos sobre salarios (en dólares) de los maestros de escuelas públicas 
en 50 estados y el Distrito de Columbia para los años 2005-2006. Las 51 áreas se clasifican en 
tres regiones geográficas: 1) Noreste y Norte-centro (21 estados en total); 2) Sur (17 estados 
en total), y 3) Oeste (13 estados en total). Por el momento, no se preocupe por el formato de la 
tabla ni de los demás datos suministrados. 

Suponga que deseamos averiguar si el salario promedio anual (SPA) de los maestros de es- 
cuelas públicas difiere en las tres áreas geográficas de Estados Unidos. Si tomamos el promedio 
aritmético simple de los salarios promedio de los maestros de las tres regiones, obtenemos los 
siguientes promedios para las tres regiones: $49 538.71 (Noreste y Norte-centro), $46 293.59 
(Sur) y $48 104.62 (Oeste). Esos números difieren entre sí, pero, ¿son estadísticamente distin- 
tos? Existen varias técnicas estadísticas para comparar dos o más valores medios, lo cual por 
lo general se conoce como análisis de varianza.? Pero se logra lo mismo con el análisis de 
regresión. 

Para ver lo anterior, considere el siguiente modelo: 


Y; = B1 + B2D2¡+ B3¡D3¡ + ui (9.2.1) 


donde Y¡= salario (promedio) de los maestros de escuelas públicas en el estado i 
D>2¡= 1 si el estado se encuentra en el Noreste o Norte-centro 
= 0 para otra región del país 
D3;= 1 si el estado es del Sur 
= 0 para otra región del país 


Observe que (9.2.1) es como cualquier modelo de regresión múltiple que se haya estudiado 
antes, excepto que en vez de regresoras cuantitativas, se tienen sólo variables cualitativas o di- 
cótomas, las cuales toman el valor de 1 si la observación pertenece a una categoría particular, y 


3 No es absolutamente esencial que las variables dicótomas adquieran los valores O y 1. El par (0,1) puede 
transformarse en cualquier otro par mediante una función lineal tal que Z = a + bD (b £ 0), donde a y b 
son constantes y donde D = 1 o 0. Cuando D = 1 se tiene Z = a + b, y cuando D=0, se tiene Z = a. Así, 
el par (0,1) se convierte en (a, a + b). Por ejemplo, si a = 1 y b = 2, las variables dicótomas serán (1, 3). 
Esta expresión muestra que las variables cualitativas o dicótomas no tienen una escala natural de medición. Esto 
se debe a que se describen como variables en escala nominal. 

4 Los modelos ANOVA se utilizan para evaluar la significancia estadística de la relación entre una regresada 
cuantitativa y regresoras cualitativas o dicótomas. A menudo se emplean para comparar las diferencias entre 
los valores medios de dos o más grupos o categorías y, por tanto, son más generales que la prueba t, con la 
cual se comparan las medias de sólo dos grupos o categorías. 

5 Para un tratamiento de las aplicaciones, véase John Fox, Applied Regression Analysis, Linear Models, and Re- 
lated Methods, Sage Publications, 1997, cap. 8. 
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Salario promedio de maestros de escuelas públicas, por estado, 2005-2006 


Connecticut 
Illinois 
Indiana 
lowa 
Kansas 
Maine 
Massachusetts 
Michigan 
Minnesota 
Missouri 
Nebraska 
New Hampshire 
Nueva Jersey 
Nueva York 
Dakota del Norte 
Ohio 
Pennsylvania 
Rhode Island 
Dakota del Sur 
Vermont 
Wisconsin 
Alabama 
Arkansas 
Delaware 
Distrito de 
Columbia 
Florida 


Salario Gasto D2 D3 Salario Gasto D2 D3 
60 822 12 436 1 (0) Georgia 49 905 8 534 0 1 
58 246 9 275 1 0 Kentucky 43 646 8 300 0 1 
47 831 8 935 1 (0) Louisiana 42 816 8 519 (0) 1 
43 130 7 807 1 (0) Maryland 56 927 9 771 0 1 
43 334 8 373 1 0 Mississippi 40 182 7215 0 1 
41 596 11 285 1 0 North Carolina 46 410 7675 0 1 
58 624 12596 1 0 Oklahoma 42 379 6 944 0 1 
54 895 9 880 1 0 South Carolina 44 133 8 377 0 1 
49 634 9675 1 0 Tennessee 43816 6979 0 1 
41 839 7 840 1 0 Texas 44 897 7 547 0 1 
42 044 7 900 1 0 Virginia 44 727 9275 0 1 
46 527 10 206 1 0 West Virginia 40 531 9 886 0 1 
59 920 13781 1 0 Alaska 54 658 10171 0 0 
58 537 13551 1 0 Arizona 45 941 5 585 (0) (0) 
38 822 7 807 1 (0) California 63 640 8 486 0 0 
51 937 10 034 1 0 Colorado 45 833 8 861 0 0 
54 970 10711 1 0 Hawaii 51 922 9 879 0 0 
55 956 11 089 1 0 Idaho 42 798 7 042 0 0 
35 378 7911 1 0 Montana 41 225 8 361 0 0 
48 370 12 475 1 0 Nevada 45 342 6755 0 0 
47 901 9965 1 0 New Mexico 42 780 8 622 0 0 
43 389 7 706 0 1 Oregon 50 911 8 649 0 0 
44 245 8 402 0 1 Utah 40 566 5 347 0 0 
54 680 12 036 0 1 Washington D.C. 47 882 7 958 0 0 
59 000 15 508 0 1 Wyoming 50 692 11 596 0 0 
45 308 7 762 0 1 


Nota: D = 1 para estados del Noreste y Norte-centro; O para otra región. 


D, = 1 para estados del Sur; 0 para otra región. 


Fuente: National Education Association como se informó en 2007. 


O si no pertenece a esa categoría o grupo. De aquí en adelante, designaremos todas las variables 


dicótomas con la letra D. La tabla 9.1 muestra las variables dicótomas así definidas. 


¿Qué expresa el modelo (9.2.1)? Si consideramos que el término de error satisface las suposi- 
ciones usuales de MCO, al calcular la esperanza de (9.2.1) en ambos lados, obtenemos: 


Salario medio de los maestros de escuelas públicas en la región Noreste y Norte-centro: 


E (Da = 1, Dy = 0) = $ Se /$% (9.2.2) 
Salario medio de los maestros de escuelas públicas en el Sur: 
E(Y¡| D2¡= 0, D3;= 1) = B1 + B3 (9.2.3) 


Quizá se pregunte cómo calcular el salario promedio de los maestros de escuelas públicas en el 
Oeste. Si sospecha que la respuesta es £1, está en lo correcto, pues: 
El salario medio de los maestros de escuelas públicas en el Oeste: 


E(Y¡| Dz; = 0, D3;= 0) = 6 


(9.2.4) 


(continúa) 
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EJEMPLO 9.1 


(continuación) 


FIGURA 9.1 

Salario promedio (en 
dólares) de los maestros 
de escuelas públicas de 
tres regiones. 


En otras palabras, el salario medio de los maestros de escuelas públicas en el Oeste está dado 
por el intercepto, 61, en la regresión múltiple (9.2.1); además, los coeficientes de la “pendiente” 
$B2 y B3 indican la cantidad por la que los salarios promedio de los maestros del Noreste y Norte- 
centro, así como los del Sur, difieren respecto de los salarios medios de los profesores del Oeste. 
Pero, ¿cómo saber si estas diferencias son estadísticamente significativas? Antes de responder, 
veamos los resultados basados en la regresión (9.2.1). Con los datos de la tabla 9.1 obtenemos 
los siguientes resultados: 


Y = 48 014.615 + 1524.099Dz;— 1 721.027D;; 
ee = (1 857.204) (2 363.139) (2 467.151) 
t (25.853) (0.645) (-0.698) 
(0.0000)* (0.5220)* (0.4888)* R? = 0.0440 


(9.2.5) 


donde * indica los valores p. 

Como muestran los resultados de esta regresión, el salario medio de los profesores del Oeste 
es de casi $48 015, el de los maestros del Noreste y del Norte-centro es mayor por cerca de 
$1 524, y respecto de los del Sur, es menor por cerca de $1 721. Los salarios medios reales en 
las últimas dos regiones se obtienen con facilidad si sumamos estos salarios diferenciales al sa- 
lario medio de los maestros del Oeste, como se ve en las ecuaciones (9.2.3) y (9.2.4). Al hacer 
esto, tendremos que los salarios medios de las dos últimas regiones son cercanos a $49 539 y 
$46 294. 

Pero, ¿cómo sabemos que estos salarios medios son estadísticamente diferentes del salario 
medio de los profesores del Oeste, que es la categoría con la que se comparan? Es muy fácil. 
Todo lo que hay que hacer es averiguar si cada coeficiente de “pendiente” en (9.2.5) es estadís- 
ticamente significativo. Como se observa en esta regresión, el coeficiente estimado de la pen- 
diente para la región Noreste y Norte-centro no es estadísticamente significativo, pues su valor 
p es 52%; tampoco el del Sur es estadísticamente significativo, pues el valor p es más o menos 
de 49%. En consecuencia, la conclusión general es que, estadísticamente, los salarios medios de 
los profesores de escuelas públicas del Oeste, Noreste y Norte-centro, y Sur son casi iguales. La 
situación se ilustra en el diagrama de la figura 9.1. 

Hay que tener cuidado al interpretar estas diferencias. Las variables dicótomas simplemente 
señalan las diferencias, si existen, pero no indican las razones por las que se presentan. Las di- 
ferencias en los niveles educativos, los índices del costo de vida, el sexo y la raza quizá ejerzan 
algún efecto sobre las diferencias observadas. Por tanto, a menos que se tomen en cuenta todas 
las demás variables que puedan afectar el salario de un maestro, no se podrán aclarar las causas 
de las diferencias. 

Del análisis anterior, resulta claro que lo único que hay que hacer es observar si los coeficien- 
tes relacionados con las diferentes variables dicótomas son estadísticamente significativos en 
lo individual. Este ejemplo también muestra lo fácil que es incorporar regresoras cualitativas, o 
dicótomas, a los modelos de regresión. 


$, = $49 539 


$48 015 (B, + 6,) 


$46 294 (Ê, + Êz) 


Noreste y Oeste Sur 
Norte-centro 


Capítulo 9 Modelos de regresión con variables dicótomas 281 


Precaución con las variables dicótomas 


Aunque es fácil añadirlas a los modelos de regresión, las variables dicótomas se deben utilizar 
con cuidado. En particular, considere los siguientes aspectos: 


1. En el ejemplo 9.1, para diferenciar las tres regiones utilizamos sólo dos variables dicóto- 
mas, D2 y D3. ¿Por qué no empleamos tres variables dicótomas para distinguir las tres regiones? 
Suponga que hacemos precisamente eso y escribimos el modelo (9.2.1) como: 


Y; = æ + i Dii + B2D2; + 3 D3i + ui (9.2.6) 


donde Dı; toma el valor de 1 para los estados del Oeste y 0 para los de otras regiones. Por tanto, 
ahora tenemos una variable dicótoma para cada una de las tres regiones geográficas. Con los 
datos de la tabla 9.1, si fuese a hacer la regresión de (9.2.6), la computadora “se negaría” (intén- 
telo).% ¿Por qué? La razón estriba en que cuando se definió (9.2.6), donde se tiene una variable 
dicótoma para cada categoría o grupo, así como un intercepto, se presenta un caso de colineali- 
dad perfecta; es decir, existe una relación lineal exacta entre las variables. ¿Por qué? Consulte 
la tabla 9.1. Imagine que ahora añadimos la columna D4, que toma el valor de 1 siempre que un 
estado sea del Oeste y O en cualquier otro caso. Ahora bien, si sumamos las tres columnas D ho- 
rizontalmente, obtendremos una columna con 51 números 1. Pero, como el valor del intercepto «œ 
es (implícitamente) 1 para cada observación, habrá una columna también con 51 números 1. En 
otras palabras, la suma de las tres columnas D sólo reproducirá la columna del intercepto, lo cual 
provoca colinealidad perfecta. En este caso es imposible la estimación del modelo (9.2.6). 

El mensajes es: si una variable cualitativa tiene m categorías, sólo hay que agregar (m — 1) 
variables dicótomas. En el ejemplo anterior, como la variable cualitativa “región” tiene tres cate- 
gorías, se introducen sólo dos variables dicótomas. Si no se respeta esta regla se provocará lo que 
se conoce como trampa de la variable dicótoma; es decir, se tendrá una situación de perfecta 
colinealidad o perfecta multicolinealidad, si hay más de una relación exacta entre las variables. 
Esta regla también vale si se tiene más de una variable cualitativa en el modelo, sobre lo cual ve- 
remos un ejemplo más adelante. Así, se tiene que enunciar de nuevo la regla anterior como: para 
cada regresora cualitativa, el número de variables dicótomas introducidas debe ser una 
menos que las categorías de esa variable. Entonces, si en el ejemplo 9.1 hubiésemos contado 
con información sobre el género de los profesores, habríamos utilizado una variable dicótoma 
adicional (pero no dos) que tomara el valor de 1 para mujer y de O para hombre, o viceversa. 


2. La categoría a la cual no se asigna variable dicótoma se conoce como categoría base, de 
comparación, de control, de referencia u omitida. Además, todas las comparaciones se hacen 
respecto de la categoría de comparación. 


3. El valor del intercepto ($1) representa el valor medio de la categoría de comparación. En 
el ejemplo 9.1, dicha categoría es la región Oeste. En consecuencia, para la regresión (9.2.5), el 
valor del intercepto, de alrededor de 48 015, representa el salario medio de los maestros para los 
estados del Oeste. 


4. Los coeficientes asociados a las variables dicótomas en (9.2.1) se conocen como coeficien- 
tes de intercepto diferencial, debido a que indican la medida en que el valor de la categoría que 
recibe el valor de 1 difiere del coeficiente de intercepto correspondiente a la categoría de com- 
paración. Por ejemplo, en (9.2.5), el valor aproximado de 1 524 señala que el salario promedio 
de los maestros de la región Noreste y Norte-centro es mayor por aproximadamente $1 524 que 
el salario medio de casi $48 015 perteneciente a la categoría de comparación, en este caso, el 
Oeste. 


é En realidad, obtendría el mensaje de que la matriz es singular. 
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5. Si una variable cualitativa tiene más de una categoría, como en el ejemplo ilustrativo, 
la elección de la categoría de comparación se deja al criterio estricto del investigador. A veces 
dicha elección la determina el problema particular que se trabaja. Para el ejemplo ilustrativo se 
pudo elegir el Sur como categoría de comparación. En ese caso cambian los resultados de la re- 
gresión dados en (9.2.5), pues ahora las comparaciones se hacen respecto del Sur. Por supuesto, 
lo anterior no cambia la conclusión general del ejemplo (¿por qué?). En este caso, el valor del 
intercepto será cercano a $46 294, el salario medio de los maestros del Sur. 


6. Advertimos sobre la trampa de la variable dicótoma. Existe una forma de eludirla al in- 
troducir tantas variables dicótomas como números de categorías tenga dicha variable, siempre y 
cuando no se introduzca el intercepto en dicho modelo. Así, si eliminamos el término del inter- 
cepto de (9.2.6) y consideramos el siguiente modelo 


Y, = BID + P2Da + p3 D3i + ui (9.2.7) 


no caeremos en la trampa de la variable dicótoma, pues no existe colinealidad perfecta. Pero se 
debe asegurar de que, cuando haga esa regresión, utilice la opción “no intercepto ” en el paque- 
te de software. 

¿Cómo interpretamos la regresión (9.2.7)? Si toma la esperanza de (9.2.7), tendrá que: 


ßı = salario medio de los maestros en el Oeste 
ß2 = salario medio de los maestros en el Noreste y Norte-centro 
B3 = salario medio de los maestros en el Sur 


En otras palabras, con el intercepto eliminado y al permitir una variable dicótoma para cada 
categoría, obtenemos de manera directa los valores medios de las distintas categorías. Los re- 
sultados de (9.2.7) para el ejemplo ilustrativo son los siguientes: 


Y, = 48 014.62D¡; + 49 538.71D,; + 46 293.59Dy; 
ee = (1857.204) (1461.240) (1 624.077) (9.2.8) 
t= (25.853) (33.902)" (28.505)“ 
R? = 0.044 


Ro. . ~ 
donde indica que los valores p de estas razones £ son muy pequeños. 
Como se observa, los coeficientes de las variables dicótomas proporcionan de manera directa 
los valores medios (de los salarios) para las tres regiones: Oeste, Noreste y Norte-centro, y Sur. 


7. ¿Cuál de los siguientes métodos es el mejor para introducir una variable dicótoma: 1) 
agregar una variable dicótoma para cada categoría y omitir el término del intercepto o 2) incluir 
el término del intercepto y añadir sólo (m — 1) variables, donde m es el número de categorías de 
la variable dicótoma? Como señala Kennedy: 


La mayoría de los investigadores piensan que es más conveniente la ecuación con intercepto porque 
les permite enfrentar de manera más sencilla las interrogantes que a menudo les interesan más; a 
saber, si la categorización genera una diferencia o no; y si lo hace, en qué medida. Si la categoriza- 
ción genera una diferencia, el grado de esta diferencia se mide directamente por las estimaciones de 
los coeficientes de las variables dicótomas. Probar si la categorización es o no es relevante se lleva 
a cabo mediante la prueba ż del coeficiente de una variable dicótoma, respecto de cero (o, de forma 
más general, una prueba F sobre el conjunto apropiado de los coeficientes estimados de las variables 
dicótomas).” 


7 Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Massachusetts, 1998, p. 223. 
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9.3 Modelos ANOVA con dos variables cualitativas 


En la sección anterior estudiamos un modelo ANOVA con una variable cualitativa de tres cate- 
gorías. En esta sección analizaremos otro modelo ANOVA, pero con dos variables cualitativas, 
además de destacar otros aspectos sobre este tipo de variables. 


EJEMPLO 9.2 
Salarios por hora 
en relación con el 
estado civil y la re- 
gión de residencia 


De una muestra de 528 personas tomada en mayo de 1985 se obtuvieron los siguientes resul- 
tados de regresión: 


Y,= 8.8148 + 1.0997D3-  1.6729D3; 


ee= (0.4015) (0.4642) (0.4854) 
t=(21.9528) (2.3688)  (-3.4462) (9.3.1) 
(0.0000)*  (0.0182)* (0.0006)* 
R2 = 0.0322 


donde Y= salario por hora ($) 
D» = estado civil; 1 si es casado, O en otro caso 
D3 = región de residencia; 1 si es del Sur, O en otro caso 


y * denota los valores p. 

En este ejemplo tenemos dos regresoras cualitativas, cada una con dos categorías. Por tanto, 
asignamos una variable dicótoma para cada categoría. 

¿Cuál es la categoría de comparación en este caso? Obvio, son los no casados y con residen- 
cia fuera del Sur. En otras palabras, las personas no casadas y que no viven en el Sur forman la 
categoría omitida. Por consiguiente, todas las comparaciones se establecen respecto de este 
grupo. El salario medio por hora en esta categoría base es de casi $8.81. Respecto de ésta, el 
salario promedio por hora de los que están casados es mayor por casi $1.10, lo cual da un salario 
promedio real de $9.91 (= 8.81 + 1.10). En contraste, para los que viven en el Sur, su sala- 
rio promedio por hora es menor por cerca de $1.67, lo cual da un salario promedio por hora 
de $7.14. 

¿Los salarios promedio por hora anteriores son estadísticamente distintos en comparación 
con la categoría base? Sí lo son, pues todos los interceptos diferenciales son estadísticamente 
significativos: sus valores p son muy bajos. 

El punto que debe notarse en este ejemplo es el siguiente: una vez que se va más allá de 
una variable cualitativa, se tiene que poner mucha atención a la categoría considerada como base, 
porque todas las comparaciones se llevan a cabo respecto de dicha categoría. Esto es especialmente 
importante cuando se tienen varias regresoras cualitativas y cada una de ellas presenta diversas 
categorías. A estas alturas, el mecanismo de introducción de diversas variables cualitativas debe 
ser claro para el lector. 


9.4 Regresión con una mezcla de regresoras cualitativas 
y cuantitativas: los modelos ANCOVA 


Los modelos ANOVA del tipo que vimos en las dos secciones anteriores, aunque son comunes en 
áreas como sociología, psicología, educación e investigación de mercados, no son tan frecuentes 
en la economía. Por lo general, en la mayor parte de la investigación económica, un modelo de 


8 Los datos se tomaron del disco de datos de Arthur S. Goldberger, Introductory Econometrics, Harvard Uni- 
versity Press, Cambridge, Massachusetts, 1998. Ya se tomaron en cuenta esos datos en el capítulo 2. 
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regresión contiene diversas variables explicativas cuantitativas y otras cualitativas. Los modelos 
de regresión que muestran una mezcla de variables cuantitativas y cualitativas se llaman mode- 
los de análisis de covarianza (ANCOVA). Tales modelos representan una generalización de los 
modelos ANOVA en el sentido de que proporcionan un método para controlar estadísticamente 
los efectos de las regresoras cuantitativas (llamadas covariantes o variables de control) en un 
modelo con regresoras cuantitativas y cualitativas (o dicótomas). A continuación se ilustran 
los modelos ANCOVA. 


EJEMPLO 9.3 
Salario de los maes- 
tros en relación con 
la región y el gasto 
en escuelas públicas 
por alumno 


Para motivar el análisis regresemos al ejemplo 9.1 afirmando que el salario promedio de los 
maestros de escuelas públicas no variará en las tres regiones si se toma en cuenta cualquier va- 
riable que no pueda estandarizarse en las tres regiones. Por ejemplo, piense en la variable gasto 
en escuelas públicas erogado por las autoridades locales, en vista de que la educación primaria es 
una cuestión sobre todo de carácter local y estatal. Para ver si éste es el caso, desarrollamos el 
siguiente modelo: 


Y; = B1 + p2 D2; + p3 D3i + p4 Xi + Ui (9.4.1) 


donde Y; = salario promedio anual de los maestros de escuelas públicas en el estado ($) 
Xi = gasto en escuelas públicas por alumno ($) 
D»¡= 1 si el estado es del Noreste o Norte-centro; O en otro caso 
Dz3¡= 1 si el estado es del Sur; O en otro caso 


Los datos para X se proporcionan en la tabla 9.1. Tenga presente que se considera al Oeste como 
la categoría de comparación. Asimismo, note que, además de las dos regresoras cualitativas, se 
tiene una variable cuantitativa, X, que en el contexto de los modelos ANCOVA se conoce como 
covariante, como dijimos antes. 

De los datos mostrados en la tabla 9.1, los resultados del modelo (9.4.1) son los siguientes: 


Y = 286941918 =- 29541270, = 3 112. 194D3+ 2 :3404% 
ee = (3 262.521) (1862.576) (1 819.873) (0.3592) (9.4.2) 
t= (8.795)* (=1.586)* (21.710)* (6.515) 
R? = 0.4977 


donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. 

Como los resultados indican, ceteris paribus: conforme el gasto público aumenta un dólar, en 
promedio, el salario de los maestros de escuela pública se incrementa más o menos $2.34. Si 
controlamos el gasto en educación, ahora se observa que el coeficiente de intercepto diferencial 
no es significativo para la región Noreste y Norte-centro ni para el Sur. Estos resultados difieren 
de los de (9.2.5). Pero no debe sorprender, pues en (9.2.5) no tuvimos en cuenta la covariante, 
que son las diferencias del gasto público en educación por alumno. La situación se ilustra de 
manera gráfica en la figura 9.2. 

Note que, si bien se mostraron tres líneas de regresión para las tres regiones, estadística- 
mente las líneas de regresión son las mismas para las tres regiones. También observe que las tres 
líneas de regresión son paralelas. (¿Por qué?) 


FIGURA 9.2 

Salario de los maestros 
de escuelas públicas 
(Y) en relación con el 
gasto en educación por 
alumno (X). 
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28 695 


25 741 


25 583 


9.5 La variable dicótoma alternativa a la prueba de Chow? 


En la sección 8.7 analizamos la prueba de Chow para examinar la estabilidad estructural del 
modelo de regresión. El ejemplo ahí tuvo que ver con la relación entre ahorro e ingreso en Es- 
tados Unidos de 1970 a 1995. Dividimos el periodo muestra en dos: 1970-1981 y 1982-1995; 
asimismo, se mostró, con base en la prueba de Chow, que existía una diferencia en la regresión 
del ahorro sobre el ingreso para los dos periodos. 

No obstante, no pudimos determinar si dicha diferencia en las dos regresiones se debía a las 
diferencias en los términos del intercepto o en los coeficientes de la pendiente, o a ambas situa- 
ciones. Con mucha frecuencia, saber esto por sí mismo resulta muy útil. 

Al ver las ecuaciones (8.7.1) y (8.7.2) se observa que hay cuatro posibilidades, las cuales se 
ilustran en la figura 9.3: 


1. El intercepto y los coeficientes de las pendientes son iguales en ambas regresiones. Esta situa- 
ción, el caso de regresiones coincidentes, se muestra en la figura 9.3a. 


2. Sólo los interceptos en ambas regresiones son diferentes, pero las pendientes son las mismas. 
Este caso, de regresiones paralelas, se presenta en la figura 9.3b. 

3. Los interceptos en las dos regresiones son las mismas, pero las pendientes son distintas. Esta 
situación se conoce como regresiones concurrentes y se muestra en la figura 9.3c. 


4. Ambos interceptos y pendientes en las dos regresiones son distintos. Este caso es el de regre- 
siones disímbolas, lo cual se muestra en la figura 9.3d. 


Como ya mencionamos, la prueba de Chow de múltiples pasos, analizada en la sección 8.7, 
indica sólo si dos (o más) regresiones son distintas, pero no el origen de la diferencia. Dicha 


? El material de esta sección se basa en los artículos del autor “Use of Dummy Variables in Testing for Equa- 
lity between Sets of Coefficients in Two Linear Regressions: A Note” y “Use of Dummy Variables. .. A Gene- 
ralization”, ambos publicados en American Statistician, vol. 24, núms. 1 y 5, 1970, pp. 50-52 y 18-21. 
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FIGURA 9.3 
Regresiones plausibles de 
ahorro-ingreso. 


Ahorro Ahorro 


Y2=4) =A 

| h oA 
Yı 

ba ba 


Ingreso Ingreso 
a) Regresiones coincidentes b) Regresiones paralelas 


Ahorro 

Y 

1 
A 

1 2 

ln =A1 
Ingreso Ingreso 
c) Regresiones concurrentes d) Regresiones disímbolas 


causa, si hay alguna, sale a la luz al agrupar todas las observaciones (26 en total) y llevar a cabo 
sólo una regresión múltiple, como se muestra en seguida: !° 


Y, =01 +09D, + B1X, + PA(D,X,) + u: (9.5.1) 
donde Y = ahorro 
X = ingreso 
t = tiempo 


D = 1 para las observaciones de 1982-1995 
= 0 en otro caso (es decir, para las observaciones de 1970-1981) 


La tabla 9.2 muestra la estructura de la matriz de datos. 
Para ver las implicaciones de (9.5.1), y si suponemos que, como siempre, E(u;) = 0, obtene- 
mos: 


Función de ahorros medios para 1970-1981: 
E(Y, 1D, = 0, X,) = 01 + B1X; (9.5.2) 

Función de ahorros medios para 1982-1995: 
E(Y, 1D, = 1, X) =(01 +02) +(81 + P2)X; (9.5.3) 


El lector notará que se trata de las mismas funciones que (8.7.1) y (8.7.2), con 4; = 01, à2 = Bi, 
yı = (41 + 0%) y y2 = (fı + 62). Por tanto la estimación de (9.5.1) equivale a estimar las dos 
funciones de ahorro individuales (8.7.1) y (8.7.2). 


10 Como en la prueba de Chow, la técnica de agrupamiento supone la homoscedasticidad; es decir, o? = 


Mo > 
0 S0 


TABLA 9.2 

Datos sobre ahorro e 
ingreso, Estados Unidos, 
1970-1995 


Fuente: Economic Report of the 
President, 1997, tabla B-28, 
p. 332, 
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Observación Ahorro Ingreso Variable dicótoma 
1970 61 727.1 0 
1971 68.6 790.2 0 
1972 63.6 855.3 0 
1973 89.6 965 0 
1974 97.6 1 054.2 0 
1975 104.4 1 159.2 0 
1976 96.4 1273 0 
1977 92.5 1 401.4 0 
1978 112.6 1 580.1 0 
1979 130.1 1 769.5 0 
1980 161.8 1 973.3 0 
1981 199.1 2 200.2 0 
1982 205.5 2 347.3 1 
1983 167 2 522.4 1 
1984 235.7 2810 1 
1985 206.2 3 002 1 
1986 196.5 3 187.6 1 
1987 168.4 3 363.1 1 
1988 189.1 3 640.8 1 
1989 187.8 3 894.5 1 
1990 208.7 4 166.8 1 
1991 246.4 4 343.7 1 
1992 272.6 4 613.7 1 
1993 214.4 4 790.2 1 
1994 189.4 5 021.7 1 
1995 249.3 5 320.8 1 

Nota: Variable dicótoma = 1 para observaciones a partir de 1982; 0 en otro caso. 


Las cifras de ahorro e ingreso se expresan en miles de millones de dólares. 


En (9.5.1), q, es el intercepto diferencial, como antes; y £2 es el coeficiente de la pendiente 
diferencial (también llamado alterador de pendiente), el cual indica cuánto difiere el coefi- 
ciente de la pendiente de la función ahorro del segundo periodo (la categoría que recibe el valor 
dicótomo de 1) respecto del primer periodo. Observe que la introducción de la variable dicótoma 
D en la forma interactiva, o multiplicativa (D multiplicada por X), permite diferenciar entre 
los coeficientes de las pendientes de los dos periodos, del mismo modo que la introducción de la 
variable dicótoma en forma aditiva permite distinguir entre los interceptos de los dos periodos. 


EJEMPLO 9.4 
Diferencias estruc- 
turales en la regre- 
sión ahorro-ingreso 
para Estados Uni- 
dos: método de la 
variable dicótoma 


Antes de proseguir, veamos los resultados de la regresión del modelo (9.5.1) aplicada a los datos 
de ahorro-ingreso de Estados Unidos. 


Y,= 1.0161 +152.4786D,+ 0.0803X, — 0.0655(D:X) 
ee = (20.1648) (33.0824) (0.0144) (0.0159) (9.5.4) 
t= (0.0504)" (4.6090) (5.5413) (-4.0963)' 

R? = 0.8819 


donde * indica valores p menores que 5%, y ** indica valores p mayores que 5%. 


(continúa) 
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EJEMPLO 9.4 


(continuación) 


Como muestran los resultados de esta regresión, el intercepto diferencial y el coeficiente de la 
pendiente son estadísticamente significativos, lo cual indica enérgicamente que las regresiones 
ahorro-ingreso para los dos periodos son diferentes, como en la figura 9.3d. 

De (9.5.4) derivamos las ecuaciones (9.5.2) y (9.5.3), las cuales son: 

Regresión ahorro-ingreso para 1970-1981: 


Y,=1.0161 + 0.0803X; (9.5.5) 
Regresión ahorro-ingreso para 1982-1995: 


Y.= (1.0161 + 152.4786) + (0.0803 — 0.0655)X: 
=153.4947 +  0.0148X; (9.5.6) 


Éstos son precisamente los resultados obtenidos en (8.7.1a) y (8.7.2a), lo cual no debe sorpren- 
der. Tales regresiones ya se mostraron en la figura 8.3. 

Ahora se ven de inmediato las ventajas de la técnica de la variable dicótoma [es decir, la 
estimación de (9.5.1)], sobre la prueba de Chow [es decir, la estimación de las tres regresiones: 
(8.7.1), (8.7.2) y (8.7.3)]: 


1. Sólo fue necesaria una regresión, pues las regresiones individuales pueden derivarse con faci- 
lidad a partir de ella, del modo indicado por las ecuaciones (9.5.2) y (9.5.3). 

2. Con la regresión (9.5.1) se prueban diversas hipótesis. Por tanto, si el coeficiente del inter- 
cepto diferencial «7 es estadísticamente insignificante, se puede aceptar la hipótesis de que 
las dos regresiones tienen el mismo intercepto; es decir, ambas regresiones son concurrentes 
(compare con la figura 9.3c). De modo semejante, si el coeficiente de la pendiente diferencial 
b2 es estadísticamente insignificante pero «> es significativo, tal vez no se rechace la hipótesis 
de que las dos regresiones tienen la misma pendiente; es decir, las dos líneas de regresión 
son paralelas (véase la figura 9.3b). La prueba de la estabilidad de toda la regresión (es decir, 
æ2 = B2 = 0, de manera simultánea) se lleva a cabo mediante la prueba F usual (recuerde la 
prueba F de los mínimos cuadrados restringidos). Si no se rechaza la hipótesis, las líneas de 
regresión serán coincidentes, como se aprecia en la figura 9.3a. 


3. La prueba de Chow no establece de manera explícita cuál coeficiente, intercepto o pendiente 
es distinto, ni si ambos son diferentes en los dos periodos (como en el ejemplo anterior). Es 
decir, se puede tener una prueba de Chow significativa debido a que sólo la pendiente es 
diferente o a que sólo el intercepto es distinto, o porque ambos lo son. En otras palabras, 
no se puede saber, mediante la prueba de Chow, cuál de las cuatro posibilidades esquema- 
tizadas en la figura 9.3 es la que se tiene en una determinada instancia. Al respecto, el mé- 
todo de la variable dicótoma tiene una clara ventaja, pues no sólo indica si los dos periodos 
son distintos, sino que también destaca la(s) causa(s) de la diferencia: si se debe al intercepto, 
a la pendiente o a las dos. En la práctica, saber si dos regresiones difieren en uno u otro 
coeficiente resulta tan importante, si no más, que sólo saber que son distintas. 


4. Por último, en vista de que el agrupamiento (es decir, incluir todas las observaciones en una 
sola regresión) aumenta los grados de libertad, tal vez mejore la precisión relativa de los 
parámetros estimados. Por supuesto, tenga en cuenta que cada inclusión de una variable 
dicótoma consumirá un grado de libertad. 


9.6 Efectos de interacción al utilizar variables dicótomas 


Las variables dicótomas son una herramienta flexible para varios problemas interesantes. Obser- 
vemos lo anterior con el siguiente modelo: 


Y, =01 + 09D»; + 03D3; + Xi + ui (9.6.1) 
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donde Y = salario por hora en dólares 
X= educación (años de escolaridad) 
D= 1 si es mujer; 0 en otro caso 
D3= 1 si no es blanco y no hispano; 0 en otro caso 


En este modelo, el sexo y la raza son regresoras cualitativas y la escolaridad es cuantitativa.'' 
Está implícito en este modelo el supuesto de que el efecto diferencial de la variable dicótoma 
sexo, D,, es constante en las dos categorías de raza, y el efecto diferencial de la variable dicó- 
toma raza, D3, también es constante en ambos sexos. Es decir, si el salario medio es mayor para 
los hombres que para las mujeres, esto ocurre independientemente de que sean no blancos/no 
hispanos o no. De igual forma, si por ejemplo los no blancos/no hispanos tienen salarios medios 
menores, esto ocurre independientemente de que sean hombres o mujeres. 

En muchas aplicaciones dicho supuesto puede ser insostenible. Una mujer no blanca ni his- 
pana tal vez gane menor salario que un hombre de esa misma categoría. En otras palabras, quizá 
haya interacción entre las dos variables cualitativas D, y D3. Por tanto, su efecto sobre la media 
Y quizá no sea simplemente aditivo, como en (9.6.1), sino también multiplicativo, como en el 
siguiente modelo: 


Y, = 01 + 09D»; + 03D3; + 04(D,; D3¡) + PX; + ui (9.6.2) 


donde las variables están definidas como en el modelo (9.6.1). 
De (9.6.2) obtenemos 


E(Y; | Du = 1, Dz; =1,X¡)=(01+0+03 +04) + X; (9.6.3) 


que es la función salario medio por hora para las trabajadoras no blancas ni hispanas. Observe que 


0, = efecto diferencial de ser mujer 
az = efecto diferencial de ser no blanco ni hispano 
04 = efecto diferencial de ser mujer no blanca ni hispana 


lo cual muestra que el salario medio por hora de las mujeres no blancas ni hispanas es diferente 
(en una cantidad igual a œ4) del salario medio por hora de las mujeres blancas o hispanas. Si por 
ejemplo los tres coeficientes de las variables dicótomas son negativos, se implica que las traba- 
jadoras no blancas ni hispanas ganan un salario medio por hora mucho más bajo que las trabaja- 
doras blancas o hispanas, en comparación con la categoría base, la cual en el ejemplo presente es 
la de hombres blancos o hispanos. 

Ahora el lector puede observar la forma en que la variable dicótoma de interacción (es decir, 
el producto de dos variables cualitativas o dicótomas) modifica el efecto de los dos atributos con- 
siderados de manera individual (es decir, en forma aditiva). 


EJEMPLO 9.5 
Ingreso promedio 
por hora en compa- 
ración con la esco- 
laridad, sexo y raza 


Veamos primero los resultados de la regresión basados en el modelo (9.6.1). Con los datos con 
que se estimó la regresión (9.3.1) obtuvimos lo siguiente: 


Y,= —0.2610 —  2.3606D,;-  1.7327D3¡+ 0.8028X; 
t = (—0.2357)* (—5.4873) (2.1803 (9.9094) (9.6.4) 
RIO 2032 528 
donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. 


(continúa) 


11 Si definiéramos la variable escolaridad como menos que educación media superior, educación media su- 
perior y más que educación media superior, podríamos utilizar entonces dos variables dicótomas para repre- 
sentar las tres clases. 
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EJEMPLO 9.5 


(continuación) 


El lector puede verificar que los coeficientes de intercepto diferenciales son estadísticamente 
significativos, que tienen los signos que se esperaban (¿por qué?) y que la escolaridad tiene un 
gran efecto positivo sobre el salario por hora, lo cual no causa sorpresa alguna. 

Como lo muestra (9.6.4), ceteris paribus, el ingreso promedio por hora de las mujeres es in- 
ferior por cerca de $2.36; además, el ingreso promedio por hora de los trabajadores no blancos 
ni hispanos también es menor por aproximadamente $1.73. 

Ahora consideremos los resultados del modelo (9.6.2), que incluyen la variable dicótoma de 
interacción. 


Y = =0:26100 = 23606D,,= 1:/327D3 3 2:1289D,D,,+ 0.8028%, 
t = (20.2357)**  (-5.4873)*  (-2.1803)*  (1.7420)** (9.9095)** (9.6.5) 
R? = 0.2032 n= 528 


donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. 

Como se nota, las dos variables dicótomas aditivas son aún estadísticamente significativas, 
pero la variable dicótoma interactiva no está al nivel convencional de 5%; el valor p real de la 
variable de interacción es de un nivel de casi 8%. Si consideramos que esto es una probabilidad 
lo bastante baja, interpretamos los resultados de (9.6.5) de la siguiente manera: si se mantiene 
constante el nivel de educación y se suman los tres coeficientes de las variables dicótomas, 
obtendremos —1.964 (= -2.3605 — 1.7327 + 2.1289), lo cual significa que los salarios medios 
por hora de las trabajadoras no blancas ni hispanas es menor por casi $1.96, valor que está entre 
—2.3605 (diferencia debido sólo al sexo) y —1.7327 (diferencia debida sólo a la raza). 


El ejemplo anterior revela con claridad la interacción de las variables dicótomas cuando se 
incluyen en el modelo dos o más regresoras cualitativas. Es importante observar que en el modelo 
(9.6.5) se supone que la tasa de crecimiento de los ingresos por hora respecto de la escolaridad 
(de cerca de 80 centavos por año adicional de escolaridad) sigue constante en cuanto al sexo y 
la raza. Pero esto tal vez no sea así. Si desea probar lo anterior deberá introducir coeficientes de 
pendiente diferenciales (véase el ejercicio 9.25). 


9.7 Uso de las variables dicótomas en el análisis estacional 


Muchas series de tiempo económicas que se basan en datos mensuales o trimestrales presentan 
pautas estacionales (movimiento oscilatorio regular); por ejemplo, las ventas de las tiendas de 
departamentos en la época de Navidad y otras festividades importantes, la demanda de dinero 
(saldos de efectivo) por parte de las familias en épocas de vacaciones, la demanda de helado y 
bebidas gaseosas durante el verano y los precios de los cultivos justo después de la época de 
cosecha, la demanda de viajes en avión, etc. A menudo es útil eliminar el factor o componente 
estacional de las series de tiempo con el fin de concentrarse en los demás componentes, como la 
tendencia.!? El proceso de eliminar el componente estacional de una serie de tiempo se conoce 
como desestacionalización o ajuste estacional, y la serie de tiempo así obtenida se denomina 
serie de tiempo desestacionalizada o ajustada por estacionalidad. Las series de tiempo econó- 
micas importantes, como el índice de precios al consumidor (IPC), el índice de precios del pro- 
ductor (IPP) y el índice de producción industrial, suelen publicarse ajustadas por estacionalidad. 


12 Una serie de tiempo puede tener cuatro componentes: (1) estacional, (2) cíclico, (3) tendencia y 
(4) estrictamente aleatorio. 


TABLA 9.3 

Datos trimestrales sobre 
ventas de aparatos elec- 
trodomésticos (en miles) 
y gasto en bienes dura- 
deros (del primer tri- 
mestre de 1978 al cuarto 
de 1985) 


Fuente: Business Statistics and 
Survey of Current Business, De- 
partment of Commerce (varios 
números). 
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LAVLZ TRIT REFR LAVD BIDU LAVLZ TRIT REFR LAVD BIDU 
841 798 1317 1271 252.6 480 706 943 1036 247.7 
957 837 1615 1295 272.4 530 582 1175 1019 249.1 
999 821 1662 1313 270.9 557 659 1269 1047 251.8 
960 858 1295 1150 273.9 602 837 973 918 262 
894 837 1271 1289 268.9 658 867 1102 1137 263.3 
851 838 1555 1245 262.9 749 860 1344 1167 280 
863 832 1639 1270 270.9 827 918 1641 1230 288.5 
878 818 1238 1103 263.4 858 1017 1225 1081 300.5 
792 868 1277 1273 260.6 808 1063 1429 1326 312.6 
589 623 1258 1031 231.9 840 955 1699 1228 322.5 
657 662 1417 1143 242.7 893 973 1749 1297 324.3 
699 822 1185 1101 248.6 950 109 1117 1198 333.1 
675 871 119 1181 258.7 838 1086 1242 1292 344.8 
652 791 1410 1116 248.4 884 990 1684 1342 350.3 
628 759 1417 1190 255.5 905 1028 1764 1323 369.1 
529 734 919 1125 240.4 909 1003 1328 1274 356.4 


Nota: LAVLZ = lavalozas; TRIT = trituradores de basura; REFR = refrigeradores; LAVD = lavadoras; BIDU = gasto en bienes dura- 
deros, miles de millones de dólares de 1982. 


Hay diversos métodos para desestacionalizar una serie de tiempo, pero consideraremos sólo 
uno: el método de las variables dicótomas.'? Para ilustrar la forma de desestacionalizar con las 
variables dicótomas, considere los datos de la tabla 9.3. Se trata de datos trimestrales de 1978 
a 1995 respecto de las ventas de cuatro aparatos principales: lavalozas, trituradores de basura, 
refrigeradores y lavadoras, en miles de unidades. La tabla también suministra datos sobre el gasto 
en bienes duraderos en 1982, en miles de millones de dólares. 

A fin de ilustrar la técnica de la variable dicótoma consideraremos sólo las ventas de los re- 
frigeradores en el periodo de muestra. Pero primero observe los datos de la figura 9.4. Esa figura 
indica que tal vez exista un modelo estacional en los datos asociados con los diversos trimestres. 
Para verificarlo, vea el siguiente modelo: 

Y, =041D¡, + 09D», + %3,D3, + 04Da, + Uy (9.7.1) 
donde Y, = ventas de refrigeradores (en miles) y las D son las variables dicótomas, las cuales 
toman un valor de 1 en el trimestre relevante, y 0 en otro caso. Observe que para evitar la trampa 
de la variable dicótoma asignamos una variable dicótoma a cada trimestre del año, pero omi- 
timos el término del intercepto. Si hubiera algún efecto estacional en un determinado trimestre 
se señalaría mediante un valor t estadísticamente significativo del coeficiente de la variable dicó- 
toma para dicho trimestre.!* 

Observe que en (9.7.1) se hace la regresión de Y efectivamente sobre un intercepto, salvo que 
se permite un intercepto distinto para cada temporada (es decir, trimestre). Como resultado, el 
coeficiente de la variable dicótoma de cada trimestre proporcionará la media de las ventas de 
refrigeradores de cada trimestre o temporada (¿por qué?). 


13 Para los diversos métodos de ajuste estacional, véase por ejemplo Francis X. Diebold, Elements of Forecas- 
ting, 2a. ed., South-Western Publishers, 2001, capítulo 5. 

14 Considere un aspecto técnico. Este método de asignar una variable dicótoma a cada trimestre supone que 
el factor estacional, si está presente, es determinista y no estocástico. Volveremos a este tema cuando anali- 
cemos la econometría de las series de tiempo, en la parte V de este libro. 
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FIGURA 9.4 
Ventas de refrigeradores, 
1978-1985 (trimestrales). 
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EJEMPLO 9.6 
Estacionalidad en 
las ventas de refri- 
geradores 


TABLA 9.4 

Ventas de refrigerado- 
res (miles) en Estados 
Unidos, de 1978 a 1985 
(trimestrales) 


Fuente: Business Statistics and 
Survey of Current Business, 
Department of Commerce 
(varios números). 


De los datos sobre las ventas de refrigeradores de la tabla 9.4 se obtienen los siguientes resulta- 
dos de la regresión: 


Y, = 1 222.125D¡¿+ 1 467.500D: + 1 569.750D3¢ + 1 160.000D4: 
203720) (24.4622) (26.1666) (19.3364) 
Re = 05317 


(2.7.2) 


Nota: No se proporcionaron los errores estándar de los coeficientes estimados: cada uno de ellos 
es igual a 59.9904, pues todas las variables dicótomas sólo toman el valor de 1 o de 0. 

Los coeficientes estimados «œ en (9.7.2) representan el promedio, o media, de las ventas de 
refrigeradores (en miles de unidades) en cada temporada (es decir, trimestre). Por tanto, el 
promedio de ventas de refrigeradores en el primer trimestre, en miles de unidades, es de casi 
1 222, en el segundo trimestre fue de casi 1 468, las del tercer trimestre fueron de 1 570 aproxi- 
madamente, y las del último trimestre fueron de casi 1 160. 


REFRI BIDU D2 D; Da REFRI BIDU D2 D; Da 
1317 252.6 0 0 0 943 247.7 0 0 0 
1615 272.4 1 0 0 1175 249.1 1 0 0 
1662 270.9 0 1 0 1269 251.8 0 1 0 
1295 273.9 0 0 1 973 262.0 0 0 1 
1271 268.9 0 0 0 1102 263.3 0 0 0 
1555 262.9 1 0 0 1344 280.0 1 0 0 
1639 270.9 0 1 0 1 641 288.5 0 1 0 
1238 263.4 0 0 1 1225 300.5 0 0 1 
1277 260.6 0 0 0 1429 3126 0 0 0 
1258 231.9 1 0 0 1699 322.5 1 0 0 
1417 2427 0 1 0 1749 324.3 0 1 0 
1185 248.6 0 0 1 1117 333.1 0 0 1 
1196 258.7 0 0 0 1242 344.8 0 0 0 
1410 248.4 1 0 0 1684 350.3 1 0 0 
1417 255.5 0 1 0 1764 369.1 0 1 0 

919 240.4 0 0 1 1328 356.4 0 0 1 


Nota: REFRI = ventas de refrigeradores, miles de unidades. 
BIDU = gasto en bienes duraderos, miles de millones de dólares de 1982. 
D, = 1 en el segundo trimestre; 0 en otro caso. 
D; = 1 en el tercer trimestre; 0 en otro caso. 
D4= 1 en el cuarto trimestre; 0 en otro caso. 


EJEMPLO 9.6 


(continuación) 
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A propósito, en vez de asignar una variable dicótoma a cada trimestre y suprimir el término 
del intercepto a fin de evitar la trampa de variable dicótoma, se puede asignar sólo tres variables 
dicótomas e incluir el término del intercepto. Suponga que consideramos el primer trimestre 
como referencia y asignamos variables dicótomas al segundo, tercero y cuarto. Lo anterior da los 
siguientes resultados de regresión (véase la tabla 9.4 para la organización de los datos): 


Y, =1222.1250 + 245.3750D»: + 347.6250D3: — 62.1250Da: 


t= (20.3720)*  (2.8922)* (4.0974)*  (-0.7322)** (9.7.3) 
R2 = 0.5318 


donde * indica valores p menores que 5%, y ** indica valores p mayores que 5%. 

Como consideramos el primer trimestre como punto de referencia, los coeficientes relacio- 
nados con las distintas variables dicótomas ahora son interceptos diferenciales que muestran 
en qué medida el valor promedio de Y en el trimestre que recibe un valor de 1 para la variable 
dicótoma difiere del trimestre que es punto de referencia. En otras palabras, los coeficientes de 
las variables estacionales indican el incremento o decremento estacional del valor promedio 
de Y en relación con la temporada base. Si se suman los distintos valores del intercepto diferen- 
cial al valor promedio de referencia de 1 222.125, se tendrá el valor promedio para los distintos 
trimestres. Al llevar a cabo lo anterior se reproducirá exactamente la ecuación (9.7.2), salvo 
errores de redondeo. 

Ahora apreciará el valor de considerar un trimestre como punto de referencia, pues (9.7.3) 
muestra que el valor promedio de Y para el cuarto trimestre no es estadísticamente distinto del 
valor promedio para el primer trimestre, porque el coeficiente de la variable dicótoma para el 
cuarto trimestre no es estadísticamente significativo. Por supuesto, la respuesta cambia según 
el trimestre con que se compare; no obstante, la conclusión general sigue siendo la misma. 

¿Cómo obtener la serie de tiempo desestacionalizada de las ventas de los refrigeradores? Es 
fácil. Se estiman los valores Y a partir del modelo (9.7.2) [o (9.7.3)] para cada observación y 
se restan de los valores reales de Y; es decir, se obtiene (Y; — Ys), que son sólo los residuos de la 
regresión (9.7.2), los cuales se presentan en la tabla 9.5.15 A estos residuos es necesario sumarles 
la media de las series Y para obtener los valores pronosticados. 

¿Qué representan estos residuos? Significan los componentes que quedan de la serie de 
tiempo de los refrigeradores, a saber, la tendencia, el ciclo y el componente aleatorio (pero 
tenga en cuenta la advertencia de la nota 15). 

Como los modelos (9.7.2) y (9.7.3) no contienen covariantes, ¿cambiaría la situación si se 
añade una regresora cuantitativa al modelo? Por la influencia del gasto en bienes duraderos 
sobre la demanda de refrigeradores, el modelo (9.7.3) se extenderá para incluir esta variable. 
Los datos para el gasto en bienes duraderos en miles de millones de dólares de 1982 ya se pro- 
porcionaron en la tabla 9.3. Ésta es la variable X (cuantitativa) del modelo. Los resultados de la 
regresión son los siguientes: 


Y, = 456.2440 + 242.4976D»; + 325.2643D3;— 86.0804D4: + 2.7734X; 


t= (2.5593)* — (3.6951)* (4.9421)* — (=1.3073)**  (4.4496)* (9.7.4) 
R? = 0.7298 


donde * indica valores p menores que 5% y ** indica valores p mayores que 5%. 


(continúa) 


15 Desde luego, esto supone que la técnica de las variables dicótomas es adecuada para desestacionalizar 
una serie de tiempo, y que una serie de tiempo (ST) puede representarse como ST = s + c + t + u, donde 
s indica la estacionalidad, t la tendencia, c el ciclo y u el componente aleatorio. No obstante, si la serie de 
tiempo es de la forma ST = (S(O(0(u), donde las cuatro componentes ingresan de manera multiplicativa, 
el método anterior para desestacionalizar resulta inapropiado, pues supone que los cuatro componentes de 
una serie de tiempo son aditivos. Sin embargo, diremos más al respecto en los capítulos sobre econometría 
de las series de tiempo. 
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EJEMPLO 9.6 


(continuación) 


TABLA 9.5 Regresión de las ventas de refrigeradores: valores reales, ajustados y residuales 


(ec. 9.7.3) 
Gráfica de residuos 
Real Ajustado Residual 0 
1978-1 1317 1 222.12 94.875 3 E 
1978-11 1615 1 467.50 147.500 ; ž 
1978-III 1 662 1 569.75 92.250 s = 
1978-IV 1295 1 160.00 135.000 ; A 
1979-1 1 271 1 222.12 48.875 3 a 
1979-11 1555 1 467.50 87.500 : a 
1979-III 1639 1 569.75 69.250 . ES 
1979-1V 1 238 1160.00 78.000 5 E 
1980-I 1 277 A 54.875 3 H 
1980-II 1 258 1 467.50 —209.500 E A 
1980-11 1 417 1 569.75 152.750 + E 
1980-IV 1185 1 160.00 25.000 a E a 
1981-1 1196 1 222.12 26.125 , ; 
1981-11 1410 1 467.50 57.500 o : 
1981-lIII 1417 1 569.75 —152.750 A 5 
1981-IV 919 1 160.00 —241.000 *, ; 
1982-1 943 1 222.12 279.125 E, q 
1982-11 1175 1 467.50 292.500 e . 
1982-11 1 269 1 569.75 —300.750 2 a 
1982-1V 973 1160.00 —187.000 *, : 
1983-1 1102 1 222.12 —120.125 E o 
1983-11 1 344 1 467.50 —123.500 E y 
1983-111 1 641 1569.75 71.250 , Bo 
1983-IV 1225 1160.00 65.000 , Eo, 
1984-1 1 429 1 222.12 206.875 a a 
1984-11 1699 1 467.50 231.500 : o 3 
1984-11 1749 1569.75 179.250 , a 
1984-IV 1117 1160.00 —43.000 e | 
1985-1 1 242 1 222.12 19.875 6 Bo, 
1985-11 1 684 1 467.50 216.500 : ok 
1985-11 1764 1569.75 194.250 ; aa 
1985-IV 1 328 1 160.00 168.000 : 


= 00 + 


De nuevo, tenga en cuenta que consideramos como base al primer trimestre. Al igual que en 
(9.7.3), vea que los coeficientes de intercepto diferenciales para el segundo y tercer trimestres 
son estadísticamente diferentes de los del primer trimestre; pero los interceptos del cuarto y 
primer trimestres son estadísticamente iguales. El coeficiente de X (gasto en bienes duraderos), 
cercano a 2.77, indica que, si se permiten los efectos estacionales y el gasto en bienes duraderos 
se incrementa un dólar las ventas de refrigeradores aumentan en promedio cerca de 2.77 uni- 
dades; es decir, aproximadamente 3 unidades. Considere que los refrigeradores están dados en 
miles de unidades y X está en miles de millones de dólares (de 1982). 

Una pregunta interesante es: al igual que las ventas de refrigeradores muestran patrones es- 
tacionales, ¿el gasto en bienes duraderos también presenta patrones estacionales? ¿Cómo tomar 
en cuenta entonces la naturaleza estacional de X? Lo destacable respecto de (9.7.4) es que las 
variables dicótomas de ese modelo no sólo eliminan la estacionalidad en Y, sino que también la 
estacionalidad, si existe, en X. (Esto se deduce del teorema de Frisch-Waugh, muy conocido 
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(continuación) 
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en estadística.)!* Por decirlo así, se matan (desestacionalizan) dos pájaros (dos series) con un tiro 
(la técnica de variable dicótoma). 

Si desea una prueba informal del enunciado anterior, sólo siga estos pasos: 1) Haga la re- 
gresión de Y sobre las variables dicótomas, como en (9.7.2) o (9.7.3), y guarde los residuos, 
por ejemplo $ı; representan a la Y desestacionalizada. 2) Efectúe una regresión similar para X 
y obtenga los residuos de esta regresión, por ejemplo Sz; tales residuos representan a la X des- 
estacionalizada. 3) Lleve a cabo la regresión de $1 sobre $2. Descubrirá que el coeficiente de la 
pendiente de esta regresión es precisamente el coeficiente de X de la regresión (9.7.4). 


9.8 Regresión lineal por segmentos 


FIGURA 9.5 

Relación hipotética entre 
las comisiones de ventas 
y el volumen de ventas. 
(Nota: El intercepto en el 
eje Y denota una comisión 
mínima garantizada.) 


Para ilustrar una vez más el uso de las variables dicótomas, considere la figura 9.5, que muestra 
la forma como una compañía hipotética remunera a sus representantes de ventas. Las comisiones 
se pagan con base en las ventas de forma que, hasta un cierto nivel, meta o umbral, nivel X*, 
existe una estructura de comisiones (estocástica), mientras que por encima de ese nivel existe 
otra. (Vota: Además de las ventas, hay otros factores que afectan la comisión de las ventas. Su- 
ponga que estos otros factores están representados por el término de perturbación estocástico.) 
Más específicamente, se supone que la comisión de ventas aumenta linealmente con las ven- 
tas hasta el nivel del umbral X*, después del cual ésta también aumenta linealmente con las 
ventas pero a una tasa mayor. Por tanto, se tiene una regresión lineal por segmentos que consta 
de dos partes o segmentos lineales, a los cuales se les da el nombre de I y II en la figura 9.5, y 
la función de las comisiones cambia su pendiente en el valor del umbral. Dados los datos sobre 
comisiones, ventas y el valor del nivel del umbral X*, con la técnica de las variables dicótomas 
se estiman las diferentes pendientes de los dos segmentos de la regresión lineal por secciones que 
aparece en la figura 9.5. Procedemos de la siguiente manera: 


Y, = 01 + bı Xi + BA(X; — XD; + ui (9.8.1) 


Comisión de ventas 


X (ventas) 


16 Para una demostración, véase Adrian C. Darnell, A Dictionary of Econometrics, Edward Elgar, Lyme, Gran 
Bretaña, 1995, pp. 150-152. 
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FIGURA 9.6 
Parámetros de la regresión 
lineal por segmentos. 


donde Y; = comisión de ventas 


X; = volumen de ventas generado por el vendedor 
X*= valor del umbral de las ventas, conocido también como nudo (conocido por antici- 


pado)!” 
D=1 siX; >X* 
=0 siX;<X* 


Si E(u) = 0 vemos inmediatamente que 
E(Y; | D; = 0, X;, X") =01 + B1X; (9.8.2) 
el cual muestra la comisión de ventas promedio hasta el nivel objetivo X* y 
E(Y; | Di = 1, Xi, X*) =01 — b2X* + (B1 + Ba) Xi (9.8.3) 


que muestra la comisión de ventas promedio más allá del nivel objetivo X*. 

Así, fB¡ corresponde a la pendiente de la línea de regresión en el segmento I y 1 + £2 co- 
rresponde a la pendiente de la línea de regresión en el segmento II de la regresión lineal por 
segmentos de la figura 9.5. Es fácil probar la hipótesis de que no existe, en la regresión, una 
discontinuidad en el valor del umbral X* al observar la significancia estadística del coeficiente de 
pendiente diferencial estimado £2 (véase la figura 9.6). 

A propósito, la regresión lineal por segmentos que acabamos de exponer ejemplifica una clase 


más general de funciones conocidas como funciones “spline”.'* 


Comisión de ventas 


01 


X (ventas) 


01 -B7X* 


17 Sin embargo, tal vez no siempre sea fácil identificar el valor del umbral. Un enfoque ad hoc consiste en 
graficar la variable dependiente frente a la(s) variable(s) explicativa(s) y observar si parece haber un cambio 
pronunciado en la relación después de un valor dado de X (por ejemplo, X*). Un enfoque analítico para 
hallar el punto de ruptura se encuentra en los llamados modelos de regresión cambiantes. Pero se trata 
un tema avanzado, y acerca del cual hay un análisis clásico en Thomas Fomby, R. Carter Hill y Stanley John- 
son, Advanced Econometric Methods, Springer-Verlag, Nueva York, 1984, capítulo 14. 

18 Hay una exposición sencilla de las funciones “spline” (por ejemplo, los polinomios por segmentos de 
orden k) en Douglas C. Montgomery y Elizabeth A. Peck, Introduction to Linear Regression Analysis, John 
Wiley & Sons, 3a. ed., Nueva York, 2001, pp. 228-230. 
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EJEMPLO 9.7 
Costo total en 
relación con la 
producción 


TABLA 9.6 

Datos hipotéticos sobre 
producción y costo 
total 


Como ejemplo de la aplicación de la regresión lineal por segmentos, considere los datos hipo- 
téticos de costo total-producción total presentados en la tabla 9.6. Se dice que el costo total 
puede cambiar su pendiente al alcanzar un nivel de producción de 5 500 unidades. 

Si Y en (9.8.4) representa el costo total y X la producción total, obtenemos los siguientes 
resultados: 


Y, =-145.72 + 0.2791X; + 0.0945(X, — X7)D; 
t= (0.8245) (6.0669) (1.1447) (9.8.4) 
R2=0.9737  X*=5500 


Como muestran estos resultados, el costo marginal de producción es de cerca de 28 centavos 
de dólar por unidad, y aunque éste es de cerca de 37 centavos (28 + 9) para la producción 
por encima de 5 500 unidades, la diferencia entre ambos no es estadísticamente significativa, 
pues la variable dicótoma no es significativa, por ejemplo, en el nivel de 5%. Para todos los fi- 
nes prácticos, entonces, podemos efectuar la regresión del costo total sobre la producción total 
al eliminar la variable dicótoma. 


Costo total, dólares Unidades de producción 
256 1 000 
414 2 000 
634 3 000 
778 4 000 

1 003 5 000 
1 839 6 000 
2 081 7 000 
2 423 8 000 
2 734 9 000 
2914 10 000 


9.9 Modelos de regresión con datos en panel 


Recuerde que en el capítulo 1 analizamos una serie de datos disponibles para el análisis empírico, 
como los transversales, las series de tiempo, los agrupados (una combinación de series de tiempo 
y datos transversales) y los datos en panel. La técnica de la variable dicótoma se extiende sin 
problemas a los datos agrupados y en panel. Como los datos en panel son cada vez más populares 
en el trabajo aplicado, analizaremos este tema con más detalle en el capítulo 16. 


9.10 Algunos aspectos técnicos de la técnica con 


variables dicótomas 


Interpretación de variables dicótomas 
en regresiones semilogarítmicas 


En el capítulo 6 vimos los modelos log-lin, donde la regresada es logarítmica y las regresoras son 
lineales. En tales modelos, los coeficientes de las pendientes de las regresoras indican la semi- 
elasticidad, o el cambio porcentual en la regresada debido a una unidad de cambio en la regre- 
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sora: esto sólo se cumple si la regresora es cuantitativa. ¿Qué sucede si una regresora es una 
variable dicótoma? Para ser específicos, considere el siguiente modelo: 


ln Y; = bı + P2D; + ui (9.10.1) 


donde Y = tasa de salario por hora ($) y D = 1 para mujer y 0 para hombre. 
¿Cómo interpretamos un modelo así? Si suponemos que E(u;) = 0 obtenemos: 


Función salario para trabajadores: 
E(n Y; | D; = 0) = Bi (9.10.2) 

Función salario para trabajadoras: 
E(in Y; | D; = 1) = bı + Ba (9.10.3) 


Por tanto, el intercepto 6; proporciona el logaritmo de los ingresos medios por hora, y el coefi- 
ciente de la “pendiente”, la diferencia entre el logaritmo de los ingresos medios por hora entre 
hombres y mujeres. Lo anterior representa una forma más bien extraña de enunciar las cosas. 
Pero si tomamos el antilogaritmo de £4, lo que ahora tenemos no son los salarios medios por hora 
de los trabajadores, sino la mediana de los salarios. Como se sabe, media, mediana y moda son 
las tres medidas de tendencia central de una variable aleatoria. Y si tomamos el antilogaritmo de 
(61 + b2), obtenemos la mediana de los salarios por hora de las trabajadoras. 


EJEMPLO 9.8 
Logaritmo de sala- 
rios por hora en re- 
lación con el sexo 


Para ilustrar (9.10.1) empleamos los datos implícitos en el ejemplo 9.2. Los resultados de la 
regresión basada en 528 observaciones son los siguientes: 


nY= 2.1763 —  0.2437D; 
t = (72.2943)* (5:5048) (9.10.4) 
R2 = 0.0544 


donde * indica valores p que son prácticamente cero. 

Con el antilogaritmo de 2.1763 tenemos 8.8136 ($), que es la mediana de los ingresos por 
hora de los trabajadores, y si tomamos el antilogaritmo de [(2.1763 — 0.2437) = 1.92857], ob- 
tenemos 6.8796 ($), que es la mediana de los ingresos por hora de las trabajadoras. Por tanto, la 
mediana de los ingresos por hora de las trabajadoras es menor por casi 21.94% en comparación 
con sus contrapartes masculinos [(8.8136 — 6.8796)/8.8136]. 

Vale la pena notar que es posible obtener la semielasticidad para una regresora dicótoma de 
manera directa, mediante el proceso propuesto por Halvorsen y Palmquist.!? Tome el antiloga- 
ritmo (base e) del coeficiente estimado de la variable dicótoma, reste 1 y multiplique la diferencia 


por 100. (Abordamos la lógica de este procedimiento en el apéndice 9.A.1.) En consecuencia, si 


tomamos el antilogaritmo de —0.2437 obtendremos 0.78366. Al restar 1 de lo anterior tenemos 
0.2163, y después de multiplicar esta cifra por 100, —21.63%, lo cual indica que la mediana 
del salario de una trabajadora (D = 1) es menor que la de su contraparte masculina por aproxi- 
madamente 21.63%, lo mismo que obtuvimos antes, salvo errores de redondeo. 


Variables dicótomas y heteroscedasticidad 

Examinemos de nuevo la regresión de ahorro-ingreso para Estados Unidos de 1970 a 1981 y 
1982 a 1995, así como, en conjunto, de 1970 a 1995. Al probar la estabilidad estructural mediante 
la técnica de la variable dicótoma, supusimos que la varianza del error var (u;) = var (u2) = 07, 


19 Robert Halvorsen y Raymond Palmquist, “The Interpretation of Dummy Variables in Semilogarithmic 
Equations”, American Economic Review, vol. 70, núm. 3, pp. 474-475. 
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es decir, que las varianzas del error en los dos periodos eran las mismas. También supusimos lo 
anterior para la prueba de Chow. Si tal supuesto no es válido —es decir, si las varianzas del error 
en los dos subperiodos son distintas— es muy probable que se hagan deducciones incorrectas. 
Así, primero debemos verificar la igualdad de las varianzas en el subperiodo, mediante técnicas 
estadísticas apropiadas. Aunque analizaremos con mayor profundidad este tema más adelante 
en el capítulo sobre heteroscedasticidad, en el capítulo 8 vimos que la prueba F puede utilizarse 
para este propósito.” (Véase el análisis de la prueba de Chow en ese capítulo.) Como demostra- 
mos ahí, parece que la varianza del error para los dos periodos no es la misma. En consecuencia, 
los resultados de la prueba de Chow y la técnica de las variables dicótomas presentadas en este 
apartado tal vez no sean del todo confiables. Desde luego, el propósito aquí es ilustrar diversas 
técnicas para resolver el problema (por ejemplo, el problema de la estabilidad estructural). En 
alguna aplicación particular, tales técnicas quizá no resulten válidas. Pero lo anterior también 
sucede con la mayoría de las técnicas estadísticas. Por supuesto, hay que tomar las medidas co- 
rrectivas apropiadas a fin de resolver el problema, como más tarde se hará en el capítulo sobre 
heteroscedasticidad (no obstante, consulte el ejercicio 9.28). 


Variables dicótomas y autocorrelación 


Además de la homoscedasticidad, el modelo de regresión lineal clásico supone que el término 
de error en los modelos de regresión no está correlacionado. Pero, ¿qué sucede si esto no es así, 
sobre todo en los modelos que implican regresoras dicótomas? En vista de que analizaremos a 
profundidad el tema de la autocorrelación en el capítulo respectivo, diferiremos la respuesta hasta 
ese momento. 


¿Qué sucede si la variable dependiente es dicótoma? 

Hasta ahora hemos considerado modelos en que la regresada es cuantitativa y las regresoras son 
cuantitativas o cualitativas o de ambos tipos. Pero existen situaciones en que la regresada también 
puede ser una variable cualitativa o dicótoma. Considere por ejemplo la decisión de un trabaja- 
dor de participar en la fuerza laboral. La decisión de participar es del tipo sí o no. Será sí, si la 
persona decide participar, y no, en cualquier otro caso. Por tanto, la variable participación en 
la fuerza laboral es una variable dicótoma. Desde luego, la decisión de participar en la fuerza 
laboral depende de diversos factores, como la tasa de salario inicial, la escolaridad y las condi- 
ciones del mercado laboral (como las mide la tasa de desempleo). 

¿Todavía podemos utilizar los MCO para estimar los modelos de regresión en los que la regre- 
sada es dicótoma? Sí, mecánicamente es posible. Pero tales modelos presentan varios problemas 
estadísticos. Y como hay opciones para la estimación por MCO que no provocan tales inconve- 
nientes, veremos este tema en un capítulo posterior (véase el capítulo 15 sobre los modelos logit 
y probit). En ese capítulo también estudiaremos los modelos en los cuales la regresada tiene más 
de dos categorías; por ejemplo, la decisión de ir al trabajo en automóvil, autobús o metro; o la 
decisión de trabajar tiempo parcial, completo o no trabajar en absoluto. Tales modelos se conocen 
como modelos con variable dependiente policótomas, en contraste con los modelos con varia- 
bles dependientes dicótomas, en los que la variable dependiente tiene sólo dos categorías. 


20 El procedimiento de la prueba de Chow se puede realizar incluso en presencia de heteroscedasticidad, 
pero entonces se tendrá que utilizar la prueba de Wald. Los cálculos matemáticos en los que se basa esta 
prueba son un tanto complejos. No obstante, en el capítulo sobre heteroscedasticidad volveremos a este 
tema. 
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9.11 Temas para estudio posterior 


9.12 Ejemplo 


En la teoría se analizan diversos temas relativamente avanzados que tienen que ver con las varia- 
bles dicótomas, como 1) modelos de parámetros aleatorios o variables, 2) modelos de regre- 
sión cambiantes y 3) modelos de desequilibrio. 

En los modelos de regresión considerados en este texto se supone que los parámetros, las £, 
son desconocidos pero fijos. Los modelos de coeficientes aleatorios —de los cuales hay diversas 
versiones— suponen que las $ también pueden ser aleatorias. El trabajo principal de referencia 
en esta área es el de Swamy.?! 

En el modelo de variable dicótoma que utiliza interceptos diferenciales al igual que pendientes 
diferenciales se supone implícitamente que se conoce el punto de ruptura. Por tanto, en el ejem- 
plo de ahorro-ingreso de 1970 a 1995 se dividió el lapso en 1970-1981 y 1982-1995, los periodos 
anterior y posterior de la recesión, en la creencia de que la recesión de 1982 cambió la relación 
entre ahorro e ingreso. A veces no es sencillo señalar el momento de la ruptura. La técnica de mo- 
delos de regresión cambiantes maneja esta situación al permitir que el punto de ruptura sea en sí 
mismo una variable aleatoria y, mediante un proceso iterativo, determinar cuándo pudo acontecer 
realmente la ruptura. El trabajo original en esta área se atribuye a Goldfeld y Quandt.?? 

Se requieren técnicas especiales de estimación para lo que se conoce como situaciones de 
desequilibrio, es decir, situaciones en donde los mercados no son claros (la demanda no es igual 
a la oferta). El ejemplo clásico es el de la demanda y oferta de un commodity (bien no diferen- 
ciado). La demanda de un commodity es función de su precio y de otras variables, y su oferta es 
también función de su precio y de otras variables, algunas de las cuales son diferentes de las que 
forman parte de la función de demanda. Ahora, la cantidad en realidad comprada y vendida del 
commodity no necesariamente será igual a la que se obtiene al igualar la demanda a la oferta, lo 
que genera un desequilibrio. Para un análisis completo de modelos de desequilibrio, el lector 
puede consultar a Quandt.?* 


para concluir 


Para concluir este capítulo presentamos un ejemplo que ilustra algunos puntos. La tabla 9.7 pro- 
porciona datos sobre una muestra de 261 trabajadores en una ciudad industrial del sur de India 
en 1990. 

Las variables se definen como sigue: 


IS = ingreso por salario semanal en rupias 

Edad = edad en años 

Dsexo = 1 para trabajadores y O para trabajadoras 

DE) = variable dicótoma que toma el valor de 1 para trabajadores con nivel de escolaridad hasta 
primaria 

DE; = variable dicótoma que toma el valor de 1 para trabajadores con nivel de escolaridad hasta 
secundaria 

DE4= variable dicótoma que toma el valor de 1 para trabajadores con nivel de escolaridad 
superior al nivel secundaria 

DPT = variable dicótoma que toma el valor de 1 para trabajadores con empleo permanente y 0 
para eventuales 


21 P.A.V.B. Swamy, Statistical Inference in Random Coefficient Regression Models, Springer-Verlag, Berlín, 1971. 
22 $, Goldfeld y R. Quandt, Nonlinear Methods in Econometrics, North Holland, Amsterdam, 1972. 
23 Richard E. Quandt, The Econometrics of Disequilibrium, Basil Blackwell, Nueva York, 1988. 


TABLA 9.7 Indian wage Earners, 1990 


IS EDAD DEz DE} DE, DPT  Dsexo IS EDAD DEz DE, DE4 DPT Dsexo 
120 57 0 0 0 0 0 120 21 0 0 0 0 0 
224 48 0 0 1 1 0 25 18 0 0 0 0 1 
132 38 0 0 0 0 0 25 11 0 0 0 0 1 

75 27 0 1 0 0 0 30 38 0 0 0 1 1 
111 23 0 1 0 0 1 30 17 0 0 0 1 1 
127 22 0 1 0 0 0 122 20 0 0 0 0 0 

30 18 0 0 0 0 0 288 50 0 1 0 1 0 

24 12 0 0 0 0 0 75 45 0 0 0 0 1 
119 38 0 0 0 1 0 79 60 0 0 0 0 0 

75 55 0 0 0 0 0 85.3 26 1 0 0 0 1 
324 26 0 1 0 0 0 350 42 0 1 0 1 0 

42 18 0 0 0 0 0 54 62 0 0 0 1 0 
100 32 0 0 0 0 0 110 23 0 0 0 0 0 
136 41 0 0 0 0 0 342 56 (0) 0 0 1 0 
107 48 0 (0) 0 0 0 77.5 19 0 0 0 1 0 

50 16 1 0 0 0 1 370 46 0 0 0 0 0 

90 45 0 0 0 0 0 156 26 0 0 0 1 0 
377 46 0 (0) 0 1 0 261 23 0 0 0 0 0 
150 30 0 1 0 0 0 54 16 0 1 0 0 0 
162 40 0 0 0 0 0 130 33 0 0 0 0 0 

18 19 1 0 0 0 0 112 27 1 0 0 0 0 
128 25 1 0 0 0 0 82 22 1 0 0 0 0 

47.5 46 0 0 0 0 1 385 30 0 1 0 1 0 
135 25 0 1 0 0 0 94.3 22 0 0 1 1 1 
400 57 0 0 0 1 0 350 57 0 0 0 1 0 

91.8 35 0 0 1 1 0 108 26 0 0 0 0 0 
140 44 0 0 0 1 0 20 14 0 0 0 0 0 

49.2 22 0 0 0 0 0 53.8 14 0 0 0 0 1 

30 19 1 0 0 0 0 427 55 0 0 0 1 0 

40.5 37 0 0 0 0 1 18 12 0 0 0 0 0 

81 20 0 0 0 0 0 120 38 0 0 0 0 0 
105 40 0 0 0 0 0 40.5 17 0 0 0 0 0 
200 30 0 0 0 0 0 375 42 1 0 0 1 0 
140 30 0 0 0 1 0 120 34 0 0 0 0 0 

80 26 0 (0) 0 0 0 175 33 1 0 0 1 0 

47 41 0 0 0 0 1 50 26 0 0 0 0 1 
125 22 0 0 0 0 0 100 33 1 0 0 1 0 
500 21 0 0 0 0 0 25 22 0 0 0 1 1 
100 19 0 0 0 0 0 40 15 0 0 0 1 0 
105 35 0 0 0 0 0 65 14 0 0 0 1 0 
300 35 0 1 0 1 0 47.5 25 0 0 0 1 1 
115 33 0 1 0 1 1 163 25 0 0 0 1 0 
103 27 0 0 1 1 1 175 50 0 0 0 1 1 
190 62 1 0 0 0 0 150 24 0 0 0 1 1 

62.5 18 0 1 0 0 0 163 28 0 0 0 1 0 

50 25 1 (0) 0 0 0 163 30 1 0 0 1 0 
273 43 0 0 1 1 1 50 25 0 0 0 1 1 
175 40 0 1 0 1 0 395 45 0 1 0 1 0 
117 26 1 0 0 1 0 175 40 0 0 0 1 1 
950 47 0 0 1 0 0 87.5 25 1 0 0 0 0 
100 30 0 0 0 0 0 75 18 0 0 0 0 0 
140 30 0 0 0 0 0 163 24 0 0 0 1 0 

97 25 0 1 0 0 0 325 55 0 0 0 1 0 
150 36 0 (0) 0 0 0 121 27 0 1 0 0 0 

25 28 0 0 0 0 1 600 35 1 0 0 0 0 

15 13 0 0 0 0 1 52 19 0 0 0 0 0 
131 55 0 0 0 0 0 117 28 1 0 0 0 0 
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La categoría de referencia es trabajadores sin educación primaria y con empleo eventual. El 
interés se centra en la relación entre salario semanal y edad, sexo, nivel de escolaridad y titulari- 
dad de empleo. Con este fin, estimamos el siguiente modelo de regresión: 


In IS; = $1 + P2EDAD; + P3Dsexo + B4DE2 + BsDE3 + BoDE4 + PIDPT + ui 


En la línea de la bibliografía de economía laboral, el logaritmo (natural) de los salarios se expresa 
como función de las variables explicativas. Como señalamos en el capítulo 6, la distribución del 
tamaño de las variables, como los salarios, tiende a ser asimétrica; las transformaciones logarít- 
micas de dichas variables reducen tanto la asimetría como la heteroscedasticidad. 

Con EViews6 obtenemos los siguientes resultados de regresión: 


Variable dependiente: Ln(IS) 
Método: Mínimos cuadrados 


Muestra: 1 261 


Observaciones incluidas: 261 


Coeficiente Error estándar Estadístico t Probabilidad 
E 3.706872 0.113845 32.56055 0.0000 
EDAD 0.026549 0.003117 8.516848 0.0000 
Derxo -0.656338 0.088796 -7.391529 0.0000 
DE» 0.113862 0.098542 1.155473 0.2490 
DEz 0.412589 0.096383 4.280732 0.0000 
DE, 0.554129 0.155224 3.569862 0.0004 
DPT 0.558348 0.079990 6.980248 0.0000 
R cuadrada 0.534969 Media de la variable dependiente 4.793390 
R cuadrada ajustada 0.523984 Desviación estándar de la 
Error estándar de la regresión 0.575600 variable dependiente 0.834277 
Suma de cuadrados residual 84.15421 Criterio de información de Akaike 1.759648 
Log verosimilitud -222.6340 Criterio de Schwarz 1.855248 
Estadístico F 48.70008 Criterio de Hannan-Quinn 1.798076 
Probabilidad (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.853361 


Estos resultados muestran que el logaritmo de los salarios se relaciona positivamente con la edad, 
nivel de escolaridad y permanencia en el empleo, pero negativamente con el sexo, lo que no es 
sorprendente. Aunque al parecer no existe diferencia práctica entre los salarios semanales de los 
trabajadores con educación primaria completa y sin terminar, los de los trabajadores con educa- 
ción secundaria son más altos, y mucho más los de los trabajadores con educación superior. 

Los coeficientes de las variables dicótomas deben interpretarse como valores diferenciales de 
la categoría de referencia. Así, el coeficiente de la variable DPT indica que los trabajadores con 
empleo permanente ganan, en promedio, más dinero que los trabajadores eventuales. 

Como vimos en el capítulo 6, en un modelo log-lineal (la variable dependiente en la forma 
logaritmica y las variables explicativas en la forma lineal), el coeficiente de la pendiente de una 
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variable explicativa representa semielasticidad, es decir, da el cambio relativo o porcentual en 
la variable dependiente por cada cambio unitario en el valor de la variable explicativa. Sin em- 
bargo, como se anotó en el texto, cuando la variable explicativa es dicótoma, hay que tener mucho 
cuidado. Aquí se debe tomar el antilogaritmo del coeficiente estimado de la variable dicótoma, 
restarle 1 y multiplicar el resultado por 100. Por consiguiente, para averiguar el cambio porcen- 
tual en el salario semanal de los trabajadores con empleo permanente en comparación con los 
eventuales, tomamos el antilogaritmo del coeficiente de DPT 0.558348, restamos 1 y luego multi- 
plicamos la diferencia por 100. En el ejemplo en cuestión, esto resulta (e9538348 — 1) = (1.74778 
— 1) = 0.74778, o casi 75%. Se recomienda al lector calcular estos cambios porcentuales para 
las demás variables dicótomas del modelo. 

Los resultados muestran que el sexo y el nivel de escolaridad tienen efectos diferenciales en 
las percepciones semanales. ¿Es posible una interacción entre sexo y nivel de escolaridad? ¿Los 
trabajadores con nivel de escolaridad alto ganan mejores salarios semanales que las trabajadoras 
con el mismo nivel de escolaridad? Para examinar esta posibilidad extendemos la anterior regre- 
sión de salarios para añadir la interacción entre sexo y nivel de escolaridad. Los resultados de la 
regresión son los siguientes: 


Variable dependiente: Ln(IS) 


Método: 


Muestra: 


Mínimos cuadrados 
1 261 


Observaciones incluidas: 261 


Coeficiente Error estándar Estadístico t Probabilidad 
Cc 3.717540 0.114536 32.45734 0.0000 
EDAD 0.027051 0.003133 8.634553 0.0000 
Dsgxo -0.758975 0.110410 -6.874148 0.0000 
DE» 0.088923 0.106827 0.832402 0.4060 
DEz 0.350574 0.104309 3.360913 0.0009 
DE, 0.438673 0.186996 2.345898 0.0198 
Dsgxo* DE» 0.114908 0.275039 0.417788 0.6765 
Dsgxo* DE3 0.391052 0.259261 1508337 0.1327 
Dsexo* DE, 0.369520 0.313503 1.178681 0.2396 
DPT 0.551658 0.080076 6.889198 0.0000 
R cuadrada 0.540810 Media de la variable dependiente 4.793390 
R cuadrada ajustada 0.524345 Desviación estándar de la 
Error estándar de la regresión 0.575382 variable dependiente 0.834277 
Suma de cuadrados residual 83.09731 Criterio de información de Akaike 1.769997 
Log verosimilitud -220.9847 Criterio de Schwarz 1.906569 
Estadístico F 32.84603 Criterio de Hannan-Quinn 1.824895 
Probabilidad (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.856588 


Aunque las variables dicótomas de interacción revelan cierta interacción entre sexo y nivel 
de escolaridad, el efecto no es estadísticamente significativo, pues ningún coeficiente de interac- 
ción es estadísticamente significativo por sí solo. 
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Es interesante notar que, si eliminamos las variables dicótomas de escolaridad pero conserva- 
mos las de interacción, obtenemos los siguientes resultados: 


Variable dependiente: LOG(IS) 
Método: Mínimos cuadrados 
Muestra: 1 261 

Observaciones incluidas: 261 


Coeficiente Error estándar Estadístico t Probabilidad 
e 3.836483 0.106785 35.92725 0.0000 
EDAD 0.025990 0.003170 8.197991 0.0000 
Dsgxo -0.868617 0.106429 -8.161508 0.0000 
Dsexo* DE2 0.200823 0.259511 0.773851 0.4397 
Dsexo* DE3 0.716722 0.245021 2.925140 0.0038 
Dsexo* DE, 0.752652 0.265975 2.829789 0.0050 
DPT 0.627272 0.078869 7.953332 0.0000 
R cuadrada 0.514449 Media de la variable dependiente 4.793390 
R cuadrada ajustada 0.502979 Desviación estándar de la 
Error estándar de la regresión 0.488163 variable dependiente 0.834277 
Suma de cuadrados residual 87.86766 Criterio de información de Akaike 1.802828 
Log verosimilitud -228.2691 Criterio de Schwarz 1.898429 
Estadístico F 44.85284 Criterio de Hannan-Quinn 1.841257 
Probabilidad (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.873421 
Ahora parece que las variables dicótomas de escolaridad, por sí solas, no tienen efecto en el sa- 
lario semanal, pero introducidas en formato interactivo sí producen efectos. Como muestra este 
ejercicio, hay que tener cuidado con las variables dicótomas. Como ejercicio, el lector deberá 
averiguar si las variables dicótomas de escolaridad interactúan con DPT. 
Resumen y 1. Las variables dicótomas con valores de 1 y O (o sus transformaciones lineales) son un medio 
: de introducir regresoras cualitativas en el análisis de regresión. 
conclusiones 8 8 


2. Las variables dicótomas son un mecanismo de clasificación de datos, pues permiten dividir 
una muestra en diversos subgrupos con base en cualidades o atributos (sexo, estado civil, raza, 
religión, etc.) e implícitamente permiten efectuar regresiones individuales para cada subgrupo. 
Si hay diferencias en la respuesta de la variable regresada a la variación en las variables cuan- 
titativas en los diversos subgrupos, éstas se reflejarán en las diferencias en los interceptos o en 
los coeficientes de las pendientes, o en ambos, de las regresiones de los diversos subgrupos. 

3. Aunque es una herramienta versátil, la técnica de variable dicótoma debe manejarse con cui- 
dado. Primero, si la regresión contiene un término constante, el número de variables dicóto- 
mas debe ser menor que el número de clasificaciones de cada variable cualitativa. Segundo, 
el coeficiente que acompaña las variables dicótomas siempre debe interpretarse en relación 
con el grupo base o de referencia, es decir, con el grupo que adquiere el valor de cero. La base 
elegida depende del propósito de la investigación en curso. Finalmente, si un modelo tiene 
diversas variables cualitativas con diversas categorías, la introducción de las variables dicóto- 
mas puede consumir un gran número de grados de libertad. Por consiguiente, siempre se debe 
ponderar el número de variables dicótomas que se van a introducir respecto del número total 
de observaciones disponible para el análisis. 
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4. En este capítulo se consideraron sólo algunas de las diversas aplicaciones de la técnica de 
variables dicótomas: 1) comparación de dos (o más) regresiones, 2) desestacionalización 
de datos de series de tiempo, 3) variables dicótomas interactivas, 4) interpretación de las 
variables dicótomas en los modelos semilogarítmicos y 5) modelos de regresión lineal por 
segmentos. 

5. También recomendamos mucho tener precaución al utilizar las variables dicótomas en situa- 
ciones de heteroscedasticidad y autocorrelación. Pero, como estudiaremos estos temas con 
mucho detalle en capítulos subsecuentes, abordaremos esto a su debido tiempo. 


EJERCICIOS Preguntas 


9.1. Si cuenta con datos mensuales de distintos años, ¿cuántas variables dicótomas introducirá 
para probar las siguientes hipótesis?: 


a) Los 12 meses del año presentan patrones estacionales. 


b) Sólo febrero, abril, junio, agosto, octubre y diciembre presentan patrones estaciona- 
les. 


9.2. Considere los siguientes resultados de regresión (las razones están entre paréntesis):* 


Y. =1286  E10491%,= 000% E 1206. 069%, 


t= (4.67) (3.70) 30 (0.24) (0.08) 
IOA E 266.06%: — 118.64Xg; — MOL 
(—0.40) (6.94) CN A 


RP = 0383 n= 1543 


donde Y = horas de trabajo anuales deseadas por la esposa, calculadas como horas norma- 

les de trabajo al año, más las semanas invertidas en buscar trabajo 

X> = ingresos promedio reales por hora después de impuestos de la esposa 

X3 = ingresos anuales reales después de impuestos del esposo en el año anterior 

X4 = edad de la esposa en años 

X5 = años completos de escolaridad de la esposa 

X6 = variable de actitud; 1 si la entrevistada considera correcto que una mujer trabaje 
si así lo desea y su esposo está de acuerdo; 0 en cualquier otro caso 

X7 = variable de actitud; 1 si el esposo de la entrevistada favoreció que su esposa 
trabajara; 0 en cualquier otro caso 

Xg = número de hijos menores de 6 años 

Xo = número de hijos de 6 a 13 años 


a) ¿Los signos de los coeficientes de las diversas regresoras no dicótomas tienen algún sen- 
tido económico? Justifique su respuesta. 


b) ¿Cómo interpretaría las variables dicótomas X6 y X7? ¿Son estadísticamente significativas? 
Como la muestra es muy grande, tal vez se utilice la regla práctica “2 t” para responder la 
última pregunta. 


c) ¿Por qué cree que, en este estudio, las variables edad y escolaridad no son factores signifi- 
cativos en la decisión de la mujer de participar en la fuerza laboral? 


* Jane Leuthold, “The Effect of Taxation on the Hours Worked by Married Women”, Industrial Labor Relations 
Review, núm. 4, julio de 1978, pp. 520-526 (la notación se cambió para adaptarla al formato del libro). 
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aa 1 Tasa de Tasa de Tasa de Tasa de 
4 pal a es para A Año desempleo puestos Año desempleo puestos 
Ra O y TD, vacantes y TD, vacantes 
$ trimestre % V, % D DV trimestre % V, % D DV 
a ci Po Eo 1958-1V 1.915 0.510 0 0 1965-1 1.201 0.997 00 
eñaviour O: nemployment ani 
Unfilled a IS Bri- 1959-1 1.876 0.541 0 0 -ll 1.192 1.035 0 0 
tain, 1958-1971”, The Economic -Il 1.842 0.541 0 0 -lll 1.259 1.040 00 
Journal, vol. 82, marzo de 1972, Ill 1.750 0.690 0 o0 -IV 1.192 1.086 0 0 
paoe -IV 1.648 0.771 0 0 1966- 1.089 1.101 00 
1960- 1.450 0.836 0 0 -ll 1.101 1.058 00 
Ill 1.322 0.968 0 0 -IV 1.623 0.819 1 0.819 
-IV 1.260 0.998 0 O 1967-1 1.821 0.740 1 0.740 
-IV 1.340 0.849 0 0 1968-l 2.150 0.695 1 0.695 
1962- 1.411 0.748 0 0 -ll 2.141 0.732 1 0.732 
11 1.780 0562 0 0 -IV 2.107 0.800 1 0.800 
-IV 1.941 0.510 0 0 1969-l 2.104 0.783 1 0.783 
1963-1 2.178 0.510 0 0 -ll 2.056 0.800 1 0.800 
Il 2.067 0.544 0 0 111 2.170 0.794 1 0.794 
TT 1.942 0.568 0 0 IV 2.161 0.790 1 0.790 
-IV 1.764 0.677 0 0 1970-1 2.225 0.757 1 0.757 
1964- 1.532 0.794 0 0 —ll 2.241 0.746 1 0.746 
-Il 1.455 0.838 0 o0 -lll 2.366 0.739 1 0.739 
Ill 1.409 0.885 o o -lV 2.324 0.707 1 0.707 
-IV 1.296 0.978 0 0 1971- 2.516* 0.583* 1 0.583* 
—ll 2.909* 0.524* 1 0.524* 


*Estimados preliminares. 


9.3. Considere los siguientes resultados de una regresión.* (Los datos reales se proporcionan 
en la tabla 9.8.) 


TD, = 2.7491 + 1.1507D,—  1.5294V,— 0.8511(D;,V) 
t = (26.896) (3.6288) (—12.5552) (—1.9819) 
R? = 0.9128 


donde TD = tasa de desempleo, % 
V = tasa de puestos vacantes, % 
D = 1, para el periodo que comienza el cuarto trimestre de 1966 
= 0, para el periodo anterior al cuatro trimestre de 1966 
t = tiempo, medido en trimestres 


Nota: En el cuarto trimestre de 1966, el entonces gobierno laborista liberalizó la Ley 
de Seguro Nacional: reemplazó el sistema de tasa fija para prestaciones de desempleo de 
corto plazo por un sistema mixto de tasa fija y prestaciones relacionadas con los ingresos 
(anteriores), el cual incrementó el nivel de las prestaciones de desempleo. 


* Damodar Gujarati, “The Behaviour of Unemployment and Unfilled Vacancies: Great Britain, 1958-1971”, 
The Economic Journal, vol. 82, marzo de 1972, pp. 195-202. 
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a) ¿Cuáles son las expectativas a priori respecto de la relación entre las tasas de desem- 
pleo y de vacantes? 

b) Si la tasa de vacantes se mantiene constante, ¿cuál es la tasa promedio de desempleo 
para el periodo que comienza el cuarto trimestre de 1966? ¿Es estadísticamente dis- 
tinto del periodo anterior al cuarto trimestre de 1966? ¿Cómo sabe? 

c) ¿Las pendientes para el periodo anterior y posterior al cuarto trimestre de 1966 son 
estadísticamente distintas? ¿Cómo sabe? 

d) ¿Se puede concluir con toda seguridad, a partir de este estudio, que los generosos be- 
neficios del desempleo propician tasas más altas de vacantes? ¿Lo anterior tiene algún 
sentido económico? 


9.4. Con base en datos anuales para el periodo 1972-1979, William Nordhaus estimó el si- 
guiente modelo para explicar el comportamiento del precio del petróleo de la OPEP (erro- 
res estándar entre paréntesis):* 


M= OS 2 20 
ee = (0.03) (0.50) 


donde y = diferencia entre el precio del año en curso y el año anterior (dólares por barril) 
xı = diferencia entre el precio para entrega inmediata del año en curso y el precio de 
la OPEP en el año anterior 
x2= l para el año 1974 y 0 de lo contrario 


Interprete este resultado y muestre el resultado gráficamente. ¿Qué indican estos resulta- 
dos acerca del poder monopólico de la OPEP? 


9.5. Considere el siguiente modelo 
Y, = œ + 09D; + PX; + ui 


donde Y = salario anual de un profesor universitario 
X = años de experiencia docente 
D = variable dicótoma para el sexo 
Considere tres formas de definir la variable dicótoma: 
a) D = 1 si es hombre; 0 si es mujer. 
b) D = 1 si es mujer; 0 si es hombre. 
c) D = 1 si es mujer; — 1 si es hombre. 


Interprete el modelo de regresión anterior para cada asignación de variable dicótoma. ¿Es 
preferible un método en vez de otro? Justifique su respuesta. 


9.6. Consulte la regresión (9.7.3). ¿Cómo probaría la hipótesis de que los coeficientes de D2 
y D3 son iguales? ¿Y que los coeficientes Dz y D4 son iguales? Si el coeficiente de D3 es 
estadísticamente distinto del de D,, y el coeficiente de Da es diferente del de D2, ¿significa 
que los coeficientes D3 y D4 son también distintos? 

Sugerencia: var (A + B) = var (4) + var (B) + 2 cov (4, B) 


9.7. Consulte el ejemplo de ahorro-ingreso en Estados Unidos analizado en la sección 9.5. 
a) ¿Cómo obtendría los errores estándar de los coeficientes de regresión dados en (9.5.5) 
y (9.5.6), los cuales se obtuvieron de la regresión agrupada (9.5.4)? 
b) Para obtener respuestas numéricas, ¿qué información adicional se requeriría, en caso 
de necesitarse? 


* “Oil and Economic Performance in Industrial Countries”, Brookings Papers on Economic Activity, 1980, 
pp. 341-388. 
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9.8. 


9.9. 


En su estudio sobre las horas de trabajo dedicadas por el FDIC (Federal Deposit Insurance 
Corporation) al análisis de 91 bancos, R.J. Miller estimó la siguiente función: * 


ÍnY = 2.41 + 0.3674 1n X, + 0.2217 In X + 0.0803 ln X; 


(0.0477) (0.0628) (0.0287) 
—0.1755D; + 0.2799D, + 0.5634D, — 0.2572D4 
(0.2905) (0.1044) (0.1657) (0.0787) 


R = 0.766 


donde Y = horas-hombre del examinador del FDIC 
Xı = activos totales del banco 
X> = número total de oficinas del banco 
X3 = razón de préstamos clasificados a préstamos totales del banco 
Dı = 1 si la administración se calificó “muy buena” 
D, = 1 si la administración se calificó “buena” 
D3= 1 si la administración se calificó “satisfactoria” 
D4= 1 si la evaluación se realizó junto con el estado 


Las cifras en paréntesis son los errores estándar estimados. 

a) Interprete estos resultados. 

b) ¿Hay algún problema en la interpretación de las variables dicótomas en este modelo 
por estar Y en forma logarítmica? 

c) ¿Cómo interpretaría los coeficientes de las variables dicótomas? 

Para evaluar el efecto de la política del gobierno federal sobre la liberalización de tasas 


de interés iniciada en julio de 1979, Sidney Langer, alumna del autor, estimó el siguiente 
modelo para el periodo trimestral comprendido entre 1975-II y 1983-IL.* 


Ê, = 8.5871 — 0.1328P,— 0.7102Un, — 0238944 
ee = (1.9563) (0.0992) (0.1909) (0.0727) 


+ 0.6592Y,_ı + 2.5831Dic, R? = 0.9156 
(0.1036) (0.7549) 


donde Y = tasa de bonos del Tesoro a tres meses 
P = tasa de inflación esperada 
Un = tasa de desempleo ajustada por estacionalidad 
M = cambios en la base monetaria 
Dic = variable dicótoma, que adquiere el valor de 1 para las observaciones que em- 
piezan el 1 de julio de 1979 


a 
b 


== 


Interprete estos resultados. 


= 


¿Cuál fue el efecto de la liberación de la tasa? ¿Tienen sentido económico los resulta- 
dos? 

Los coeficientes de P,, Un, y M, son negativos. ¿Puede ofrecer un razonamiento econó- 
mico? 


C 


S 


. Consulte la regresión por segmentos analizada en el texto. Suponga que no sólo hay un 


cambio en el coeficiente de la pendiente en X*, sino también un salto en la línea de regre- 
sión, como se muestra en la figura 9.7. ¿Cómo modificaría (9.8.1) para considerar el salto 
en la línea de regresión en X*? 


* “Examination of Man-Hour Cost for Independent, Joint, and Divided Examination Programs”, Journal of 
Bank Research, vol. 11, 1980, pp. 28-35. Nota: Las notaciones se modificaron para adaptarlas a la notación 
del texto. 


Y Sidney Langer, “Interest Rate Deregulation and Short-Term Interest Rates”, trabajo universitario inédito. 


FIGURA 9.7 
Regresión lineal por seg- 
mentos discontinua. 
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Ye 
9.11. Determinantes del precio por onza de cola. Cathy Schaefer, alumna del autor, estimó la 
siguiente regresión con base en datos transversales de 77 observaciones: * 


P; = Bo + B1D1 + B2.D2 + B3D3; + ui 


donde P; = precio por onza de cola 

Dı; = 001 si es almacén de descuento 
= 010 si es almacén de cadena 
= 100 si es tienda 

Dz; = 10 si es un producto de marca 
= 01 si es un producto sin marca 

D3;= 0001 botella de 67.6 onzas (2 litros) 
= 0010 botellas de 28-33.8 onzas (Nota: 33.8 oz = 1 litro) 
= 0100 botellas de 16 onzas 
= 1 000 latas de 12 onzas 


Los resultados fueron los siguientes: 
Ê = 0.0143 — 0.000004D¡; + 0.0090D»; + 0.00001D%; 


ee = (0.00001) (0.00011) (0.00000) 
= (—0.3837) (8.3927) (5.8125) 
R? = 0.6033 


Nota: Los errores estándar se muestran sólo con cinco decimales. 

a) Comente sobre la forma de introducir las variables dicótomas en el modelo. 

b) Si suponemos que el procedimiento de variables dicótomas es aceptable, ¿cómo inter- 
preta los resultados? 

c) El coeficiente de D; es positivo y estadísticamente significativo. ¿Cómo interpreta este 
resultado? 


9.12. Con base en los datos de 101 países sobre el ingreso per cápita en dólares (X) y la espe- 
ranza de vida en años (Y) a principios de la década de 1970, Sen y Srivastava obtuvieron 
los siguientes resultados de regresión:? 


A 


Y A E 3 330 D (mx = D] 


ee= (4.73) (0.859) (2.42) R? = 0.752 
donde D; = 1 si In X; > 7, y D; = 0 de lo contrario. Nota: Cuando In X; = 7, X = $1 097 
(aproximadamente). 


* Cathy Schaefer, “Price Per Ounce of Cola Beverage as a Function of Place of Purchase, Size of Container, 
and Branded or Unbranded Product”, trabajo universitario inédito. 

t Ashish Sen y Muni Srivastava, Regression Analysis: Theory, Methods, and Applications, Springer-Verlag, Nueva 
York, 1990, p. 92. Se cambió la notación. 
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SS: 


9.14. 


SO: 


a) ¿Cuál(es) puede(n) ser la(s) razón(razones) para introducir la variable ingreso en forma 
logarítmica? 

b) ¿Cómo interpretaría el coeficiente 9.39 del In X;? 

c) ¿Cuál puede ser la razón para introducir la regresora D; (In X; — 7)? ¿Cómo explica esta 
regresora? ¿Y cómo interpreta el coeficiente —3.36 de esta regresora? (Sugerencia: 
regresión lineal por tramos.) 

d) Si suponemos un ingreso per cápita de $1 097 como línea divisoria entre los países más 
pobres y los más ricos, ¿cómo derivaría la regresión para países cuyo ingreso per cápita 
es menor que $1 097 y la regresión para países cuyo ingreso per cápita es mayor que 
$1 097? 

e) ¿Qué conclusiones generales obtiene del resultado de la regresión de este problema? 


Considere el siguiente modelo: 
Y; = Bi + P2D; + ui 


donde D; = 0 para las primeras 20 observaciones y D; = 1 para las 30 observaciones res- 

tantes. También se le indica que la var (u?) = 300 

a) ¿Cómo interpretaria 61 y 62? 

b) ¿Cuáles son los valores promedio de los dos grupos? 

c) ¿Cómo calcularía la varianza de (B + B,)? Nota: Un dato que se le da es que la 
cov (B1, $2) = —15. 

Para evaluar el efecto de las leyes estatales de derecho al trabajo referentes a los sindicatos 

(las cuales no obligan a pertenecer a un sindicato como condición para el empleo), se ob- 


tuvieron los siguientes resultados de regresión, a partir de datos de 50 estados de Estados 
Unidos durante 1982:* 


PSP, = 19.8066 — 9.3917 DAT, 
t = (17.0352) (=5.1086) 
r? = 0.3522 


donde PSP = porcentaje de los empleados en el sector privado afiliados a sindicatos en 

1982, y DAT = 1 si hay leyes de derecho al trabajo y 0 en otro caso. Nota: En 1982, dichas 

leyes estaban vigentes en 20 estados de ese país. 

a) A priori, ¿cuál es la relación esperada entre PSP y DAT? 

b) ¿Los resultados de la regresión apoyan las expectativas anteriores? 

c) Interprete los resultados de la regresión. 

d) ¿Cuál es el porcentaje promedio de los empleados del sector privado pertenecientes 
a sindicatos, en los estados en donde no están vigentes las leyes sobre el derecho al 
trabajo? 

En el siguiente modelo de regresión: 

Y, =B1 + BD; + úi 


Y representa el salario por hora en dólares, y D es la variable dicótoma, que toma el valor 
de 1 si es un titulado universitario y O si es un titulado de escuela media superior. Con las 
fórmulas de MCO del capítulo 3, demuestre que fı = Yhe y B2 = Yeg — Yng, donde los 
subíndices tienen los siguientes significados: hg = graduado de escuela media superior, y 
cg = graduado universitario. En total, existen nı graduados de escuela media superior y n2 
graduados universitarios, para una muestra total de n = nı + n2. 


* Los datos de los resultados de la regresión provienen de N.M. Meltz, “Interstate and Interprovincial Dif- 
ferences in Union Density”, Industrial Relations, vol. 28, núm. 2, 1989, pp. 142-158. 


9.16. 
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Para estudiar la tasa de crecimiento de la población de Belice de 1970 a 1992, Mukherjee 
et al. estimaron los siguientes modelos:* 


Modelo:  In(Pob= 473 + 0.0241 
t= (781.25) (54.71) 

Modelo II: In(Pob)= 4.77 + 0.015t— 0.075D,+  0.011(D,0) 
t = (2 477.92) (34.01) (—17.03) (25.54) 


donde Pob = población en millones; t = variable de tendencia; D; = 1 para observaciones 

que comenzaron en 1978 y 0 antes de 1978; y In significa logaritmo natural. 

a) En el modelo I, ¿cuál es la tasa de crecimiento de la población de Belice durante el 
periodo de muestra? 

b) ¿Las tasas de crecimiento son estadísticamente distintas antes y después de 1978? 


¿Cómo sabe? Si son diferentes, ¿cuáles son las tasas de crecimiento para 1972-1977 y 
1978-1992? 


Ejercicios empíricos 


PIT 


9.18. 


9m9 


9.20. 


9.21. 


9.22. 


Con los datos de la tabla 9.8 pruebe la hipótesis de que las varianzas de los errores en los 
dos subperiodos 1958-IV a 1966-III y 1966-IV a 1971-II son iguales. 

Con la metodología analizada en el capítulo 8, compare la regresión no restringida (9.7.3) 
con la restringida (9.7.4); es decir, pruebe la validez de las restricciones impuestas. 


En el ejemplo de la regresión (9.5.4) sobre ahorro-ingreso en Estados Unidos analizado en 
este capítulo, suponga que en lugar de utilizar los valores 0 y 1 para la variable dicótoma 
se emplea Z; = a + bD;, donde D; = 1 y 0, a = 2 y b = 3. Compare sus resultados. 
Siguiendo con la regresión (9.5.4) sobre ahorro-ingreso, suponga que asignó D; = 0 para 
las observaciones hechas en el segundo periodo, y D; = 1 para las observaciones del pri- 
mer periodo. ¿Cómo cambiarían los resultados mostrados en (9.5.4)? 


Con los datos de la tabla 9.2 considere el siguiente modelo: 
In Ahorro; = 6, + 6, In Ingreso; + 63 ln D; + ui 


donde ln significa logaritmo natural y D; = 1 para 1970-1981 y 10 para 1982-1995. 

a) ¿Cuál es el razonamiento en el que se basa la asignación de valores dicótomos, como 
se propone? 

b) Estime el modelo anterior e interprete sus resultados. 

c) ¿Cuáles son los valores del intercepto de la función ahorros en los dos subperiodos, y 
cómo los interpretaría? 


Consulte las ventas trimestrales de aparatos electrodomésticos dadas en la tabla 9.3. Con- 
sidere el siguiente modelo: 


Ventas; = 01 + 0D); + 03 D3; + 04Da4; + u; 


donde las variables dicótomas D toman los valores de 1 y 0 para los trimestres II al IV. 


a) Estime de manera individual el modelo anterior para las lavalozas, trituradores de ba- 
sura y lavadoras. 


b) ¿Cómo interpretaría los coeficientes estimados de las pendientes? 


c) ¿Cómo utilizaría las estimadas para desestacionalizar los datos sobre ventas de cada 
categoría de aparato? 


* Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics and Data Analysis for Developing Countries, 
Routledge, Londres, 1998, pp. 372-375. Se adaptaron las notaciones al libro. 
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TABLA 9.8 

Elecciones presidenciales 
de Estados Unidos, 
1916-2004 


Obs. 


A ES: 
OVWOYOoUu.mauwyNnN-000O0oUu.auwn— 


NNN 
wN = 


Año v Ww D G j N P 

1916 0.5168 0 1 2.229 1 3 4.252 
1920 0.3612 1 0 -11.46 1 5 16.535 
1924 0.4176 0 =1 -3.872 -1 10 5.161 
1928 0.4118 0 0 4.623 -1 7 0.183 
1932 0.5916 0 -1 -14.9 -1 4 7.069 
1936 0.6246 0 1 11.921 1 9 2.362 
1940 0.55 0 1 3.708 1 8 0.028 
1944 0.5377 1 1 4.119 1 14 5.678 
1948 0.5237 1 1 1.849 1 5 8.722 
1952 0.446 0 0 0.627 1 6 2.288 
1956 0.4224 0 =1 =1.527 -1 5 1.936 
1960 0.5009 0 0 0.114 -1 5 1.932 
1964 0.6134 0 1 5.054 1 10 1.247 
1968 0.496 0 0 4.836 1 7 3.215 
1972 0.3821 0 =1 6.278 -1 4 4.766 
1976 0.5105 0 0 3.663 -1 4 7.657 
1980 0.447 0 1 -3.789 1 5 8.093 
1984 0.4083 0 -1 5.387 -1 7 5.403 
1988 0.461 0 0 2.068 -1 6 3.272 
1992 0.5345 0 -1 2.293 -1 1 3.692 
1996 0.5474 0 1 2.918 1 3 2.268 
2000 0.50265 0 0 1.219 1 8 1.605 
2004 0.51233 0 1 2.69 -1 1 2.325 


Notas: 


Año Año electoral 

V Participación titular del voto bipartidista para la presidencia. 

W Variable indicadora (1 para las elecciones de 1920, 1944 y 1948; 0 en cualquier otro caso). 

D Variable indicadora (1 si un candidato demócrata compite en las elecciones, —1 si un candidato republicano compite en las eleccio- 
nes; 0 en cualquier otro caso). 

G Tasa de crecimiento del PIB per cápita real en los primeros tres trimestres del año electoral. 

I Variable indicadora (1 si hay un titular demócrata al momento de las elecciones y —1 si hay un titular republicano). 

N Número de trimestres en los primeros 15 trimestres de la administración en los que la tasa de crecimiento del PIB per cápita real es 
mayor que 3.2%. 

P Valor absoluto de la tasa de crecimiento del deflactor del PIB en los primeros 15 trimestres de la administración. 


gan 


9.24. 


Vuelva a estimar el modelo del ejercicio 9.22 añadiendo la siguiente regresora: gastos en 
bienes duraderos. 


a) ¿Existe alguna diferencia entre los resultados de la regresión obtenidos en el ejercicio 
9.22 y los de este ejercicio? De ser así, ¿qué explica la diferencia? 

b) Si existiera estacionalidad en los datos del gasto en bienes duraderos, ¿cómo la expli- 
caría? 

La tabla 9.9 proporciona datos sobre las elecciones presidenciales de Estados Unidos de 

1916 a 2004.* 


a) Con los datos de la tabla 9.9 elabore un modelo adecuado para predecir la proporción 
correspondiente al Partido Demócrata del voto bipartidista para la presidencia. 


b) ¿Cómo utilizaría este modelo para predecir el resultado de una elección presidencial? 


* Ray Fair, de la Universidad de Yale, recopiló originalmente estos datos; Fair ha pronosticado los resultados 
de las elecciones presidenciales durante varios años. Los datos se reproducen de la obra de Samprit Chatter- 


jee, Ali 


S. Hadi y Petram Price, Regression Analysis by Example, 3a. ed., John Wiley & Sons, Nueva York, 2000, 


pp. 150-151, y se actualizaron de http://fairmodel.econ.yale.edu/rayfair/pdf/2006CHTM.HTM 
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c) Chatterjee ef al. propusieron considerar el siguiente modelo tentativo para predecir las 
elecciones presidenciales: 


V = bo + Br + B2D + b3 W + Ba(GI) + sP + BN +u 


Estime este modelo y comente los resultados respecto de los resultados del modelo que 
había propuesto. 

9.25. Consulte la regresión (9.6.4). Pruebe la hipótesis de que la tasa de crecimiento de los 
ingresos promedio por hora respecto de la escolaridad difiere según el sexo y la raza. (Su- 
gerencia: Utilice variables dicótomas multiplicativas.) 

9.26. Consulte la regresión (9.3.1). ¿Cómo modificaría el modelo para saber si existe alguna 
interacción entre las variables sexo y región de residencia? Presente los resultados basados 
en este modelo y compárelos con los dados en (9.3.1). 


9.27. En el modelo Y; = 6ı + B2D; + ui, sea D; = 0 para las primeras 40 observaciones y 
D;¡= 1 para las restantes 60 observaciones. Sabe que u; tiene media cero y varianza de 100. 
¿Cuáles son los valores medios y las varianzas para los dos conjuntos de observaciones?* 


9.28. Consulte la regresión de ahorro-ingreso analizada en este capítulo. Como modelo alterno 
a (9.5.1), considere el siguiente: 


In Y, = B1 + B2D, + B3X, + Bal D¿X,) Fur 


donde Y representa los ahorros y X el ingreso. 


a) Estime el modelo anterior y compare los resultados con los de (9.5.4). ¿Cuál es mejor 
modelo? 

b) ¿Cómo interpretaría el coeficiente de la variable dicótoma en este modelo? 

c) Como veremos en el capítulo sobre la heteroscedasticidad, a menudo una transforma- 
ción logarítmica de la variable dependiente reduce la heteroscedasticidad en los datos. 
Vea si éste es el caso del ejemplo presente con la regresión del logaritmo de Y sobre X 
para los dos periodos, y observe si las varianzas de error estimadas para los dos perio- 
dos son estadísticamente iguales. Si lo son, se puede utilizar la prueba de Chow para 
agrupar los datos de la manera indicada en el capítulo. 


9.29. Consulte el ejemplo de los trabajadores asalariados de India (sección 9.12) y los datos de 
la tabla 9.7. Como recordatorio, las variables se definen como sigue: 


IS = ingreso por salario semanal en rupias 

Edad = edad en años 

Dsexo = 1 para trabajadores y 0 para trabajadoras 

DE) = variable dicótoma que toma el valor de 1 para trabajadores con nivel de escolari- 
dad hasta primaria 

DE; = variable dicótoma que toma el valor de 1 para trabajadores con nivel de escolari- 
dad hasta secundaria 

DE; = variable dicótoma que toma el valor de 1 para trabajadores con nivel de escolari- 
dad superior al nivel secundaria 

DPT = variable dicótoma que toma el valor de 1 para trabajadores con empleo perma- 
nente y 0 para trabajadores eventuales 


La categoría de referencia es trabajadores sin educación primaria y con empleo eventual. 


* Este ejemplo se adaptó de Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Mas- 
sachusetts, 1998, p. 347. 

t Los datos provienen de Econometrics and Data Analysis for Developing Countries, de Chandan Mukherjee, 
Howard White y Marc Wuyts, Routledge Press, Londres, 1998, en el apéndice. 
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En la sección 9.12 se crearon términos de interacción entre las variables de escolaridad 
(DE), DE; y DE4) y la variable de sexo (Dsexo). ¿Qué sucede si se crean términos de in- 
teracción entre las variables dicótomas de escolaridad y la variable dicótoma de trabajado- 
res permanentes (DPT )? 

a) Estime el modelo para predecir ln IS que contenga variables dicótomas edad, sexo y 
escolaridad, y tres nuevos términos de interacción: DE, x DPT, DE, x DPT y DE, 
x DPT. ¿Parece que existe algún efecto significativo de interacción entre los nuevos 
términos? 

b) ¿Hay alguna diferencia significativa entre los trabajadores con nivel de escolaridad 
hasta primaria y los trabajadores que no tienen educación primaria? Evalúe esto res- 
pecto tanto de la variable dicótoma de escolaridad como del término de interacción y 
explique los resultados. ¿Qué sucede con la diferencia entre los trabajadores que tienen 
educación secundaria y los que no tienen el nivel de educación primaria? ¿Y con la 
diferencia entre quienes tienen nivel de escolaridad superior a secundaria, en compara- 
ción con los que no tienen educación primaria? 

c) Ahora evalúe los resultados de eliminar las variables dicótomas del modelo. ¿Cambia 
la significancia de los términos de interacción? 


Apéndice 9A 


Regresión semilogarítmica con regresora dicótoma 
En la sección 9.10 observamos que en los modelos del tipo 
In Y, = B1 + B2D; (1) 


el cambio relativo en Y (es decir, la semielasticidad), respecto de la regresora dicótoma que toma los valores 
de 1 0 0, se obtiene como (el antilogaritmo de la £2 estimada) — 1 por 100; es decir, como 


(ef — 1) x 100 (2) 
La prueba es como sigue: como la función log y exp (= e) son inversas, (1) se expresa como: 
In Y, = Br a eA) (3) 


Ahora bien, cuando D = 0, e£2P: = 1, y cuando D = 1, ef?Pi = ef2, Por consiguiente, al pasar del estado 
0 al 1, In Y; cambia por (ef? — 1). Pero una variación en el logaritmo de una variable es un cambio relativo, 
el cual, después de la multiplicación por 100, se convierte en un cambio porcentual. Por tanto, ese cambio 
porcentual es (e — 1) x 100, como se afirmaba. (Nota: In, e = 1, es decir, el log de e, base e, es 1; al igual 
que el logaritmo de 10, base 10, es 1. Recuerde que el logaritmo base e se llama logaritmo natural, y que el 
logaritmo base 10 se llama logaritmo común.) 


Flexibilización 


Parte 


de los supuestos 


del modelo clásico 


En la parte 1 consideramos extensamente el modelo clásico de regresión lineal normal y vimos 
cómo utilizarlo para manejar dos problemas de inferencia estadística, a saber, la estimación y las 
pruebas de hipótesis, así como el problema de predicción. Pero recuerde que este modelo está 
basado en diversos supuestos simplificadores, que son los siguientes: 


Supuesto 1. 


Supuesto 2. 


Supuesto 3. 
Supuesto 4. 


Supuesto 5. 


Supuesto 6. 


Supuesto 7. 


El modelo de regresión es lineal en los parámetros. 


Los valores de las regresoras, las X, son fijos, o los valores de X son indepen- 
dientes del término de error. Aquí, esto significa que se requiere covarianza 
cero entre u; y cada variable X. 


Para X dadas, el valor medio de la perturbación u; es cero. 
Para X dadas, la varianza de u; es constante u homoscedástica. 


Para X dadas, no hay autocorrelación, o correlación serial, entre las perturba- 
ciones. 


El número de observaciones n debe ser mayor que el número de parámetros 
por estimar. 


Debe haber variación suficiente entre los valores de las variables X. 


También se incluyen los siguientes tres supuestos en esta parte del texto: 


Supuesto 8. 


Supuesto 9. 


Supuesto 10. 


No hay colinealidad exacta entre las variables X. 


El modelo está correctamente especificado, por lo que no hay sesgo de especi- 
ficación. 


El término estocástico (de perturbación) u; está normalmente distribuido. 


Antes de proseguir, conviene señalar que la mayoría de los libros de texto enumeran menos 


de 10 supuestos. 


Por ejemplo, los supuestos 6 y 7 se dan por obvios en vez de declararlos explí- 


citamente. Decidimos hacerlos explícitos porque parece razonable distinguir entre los supuestos 
requeridos para que los MCO tengan las propiedades estadísticas deseables (como MELI) y las 
condiciones requeridas para que los MCO sean útiles. Por ejemplo, los estimadores de MCO son 
estimadores MELI aunque no se satisfaga el supuesto 7. Pero en ese caso, los errores estándar de 
los estimadores de MCO serán grandes en comparación con sus coeficientes (es decir, las razones 
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t serán pequeñas), con lo cual se dificulta evaluar la contribución de una o más regresoras a la 
suma de cuadrados explicada. 

Como menciona Wetherill, en la práctica surgen dos tipos de problemas importantes al aplicar 
el modelo clásico de regresión lineal: 1) los debidos a supuestos sobre la especificación del mo- 
delo y sobre las perturbaciones u;, y 2) los debidos a los supuestos sobre los datos.' En la primera 
categoría están los supuestos 1, 2, 3, 4, 5, 9 y 10. Los de la segunda categoría son los supuestos 
6,7 y 8. Además, los problemas en los datos, como observaciones atípicas (o inusuales) y errores 
de medición, también se encuentran en la segunda categoría. 

Respecto de los problemas por los supuestos sobre las perturbaciones y especificaciones del 
modelo, surgen tres grandes interrogantes: 1) ¿Qué gravedad reviste alejarse de un supuesto par- 
ticular para que de verdad importe? Por ejemplo, si las u; no siguen una distribución exactamente 
normal, ¿qué nivel de alejamiento de este supuesto puede aceptarse sin que se destruya la pro- 
piedad MELI de los estimadores de MCO? 2) ¿Cómo averiguar si en verdad se violó un supuesto 
particular en un caso concreto? Por consiguiente, ¿cómo verificamos que las perturbaciones estén 
normalmente distribuidas en una aplicación dada? Ya estudiamos las pruebas de normalidad del 
estadístico 4? de Anderson-Darling y de Jarque-Bera. 3) ¿Qué medidas correctivas podemos 
emprender si uno o más supuestos son falsos? Por ejemplo, si encontramos que el supuesto de 
homoscedasticidad en una aplicación es falso, ¿qué hacer? 

Respecto de los problemas atribuibles a supuestos sobre los datos, también se presentan in- 
terrogantes similares. 1) ¿Qué tan grave es un problema particular? Por ejemplo, ¿es la multi- 
colinealidad tan severa que dificulta mucho la estimación y la inferencia? 2) ¿Cómo se mide la 
severidad del problema de datos? Por ejemplo, ¿cómo decidimos si la inclusión o la exclusión de 
una observación u observaciones que pueden representar observaciones atípicas constituirán una 
diferencia sustancial en el análisis? 3) ¿Es posible remediar con facilidad algunos problemas de 
información? Por ejemplo, ¿se puede acceder a los datos originales para encontrar las fuentes 
de los errores de medición en los datos? 

Por desgracia, no hay respuestas satisfactorias a todas estas preguntas. Lo que haremos en la 
parte 2 es mirar algunos de los supuestos en forma más crítica, aunque no todos serán objeto de 
un escrutinio completo. En particular, no analizaremos a fondo los supuestos 2, 3 y 10, por las 
siguientes razones: 


Supuesto 2: Regresoras fijas y regresoras estocásticas 


Recuerde que el análisis de regresión se basa en el supuesto de que las regresoras son no estocás- 
ticas y suponen valores fijos en muestreo repetido. Existe una buena razón para esta estrategia. 
A diferencia de los científicos de las ciencias físicas, como mencionamos en el capítulo 1, los 
economistas generalmente no tienen control sobre sus datos, dependen con mayor frecuencia 
de datos secundarios, es decir, información recopilada por otros agentes, como el gobierno y 
organizaciones privadas. Por consiguiente, la estrategia práctica es suponer que, para el problema 
en curso, los valores de las variables explicativas están dados aunque las variables mismas sean 
intrínsecamente estocásticas o aleatorias. Por tanto, los resultados del análisis de regresión están 
condicionados a estos valores dados. 

Pero suponga que no es posible considerar las X realmente no estocásticas o fijas. Es el caso 
de las regresoras aleatorias o estocásticas. Ahora la situación se complica. Las u;, por supuesto, 
son estocásticas. Si las X también lo son, se debe especificar la distribución tanto de las X como 


1G. Barrie Wetherill, Regression Analysis with Applications, Chapman y Hall, Nueva York, 1986, pp. 14-15. 
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de las 1;. Si estamos dispuesto a considerar el supuesto 2 (es decir, que las X, aunque aleatorias, 
están distribuidas independientemente, o por lo menos no están correlacionadas, con las u;), para 
todo fin práctico se puede trabajar como si las X fueran no estocásticas. Como señala Kmenta: 


Así, la no consideración o la exclusión del supuesto de que X es no estocástica y su reemplazo por 
el supuesto de que X es estocástica aunque independiente de [u] no cambia las propiedades desea- 
bles y la factibilidad de la estimación de mínimos cuadrados.? 


Por consiguiente, conservaremos el supuesto 2 hasta que abordemos el tema de los modelos de 
ecuaciones simultáneas, en la parte 4.5 Además, presentaremos un análisis breve de las regresoras 
no estocásticas en el capítulo 13. 


Supuesto 3: Valor de la media de u; igual a cero 


Recuerde el modelo de regresión lineal con k variables: 
Yi = bit Pa SAS A (1) 
Supongamos ahora que 
A a Ai, ..., Xp) = w (2) 


donde w es una constante; observe que en el modelo estándar w = 0, pero ahora puede ser cual- 
quier constante. 
Tomamos la esperanza condicional de (1) y obtenemos 


ECY; |X, Xzis - - Xp) = Br + b2Xzi + B3X3 + + BrXri +w 
= (i a W+ P2Xo + B3X3 A o o BrXu (3) 
=0 + PX + PB3A3; E: + A 


donde «œ = (fı + w) y donde, al tomar las esperanzas, se debe recordar que las X se tratan como 
constantes. (¿Por qué?) 

Por consiguiente, si no se satisface el supuesto 3, no podemos estimar el intercepto original £1; 
lo que se obtiene es «œ, el cual contiene a 6, y a E(u;) = w. En resumen, obtenemos una estimación 
sesgada de Bj. 

Pero, como mencionamos en diversas ocasiones, en muchas situaciones prácticas el inter- 
cepto, 61, es de poca importancia; los parámetros con mayor significado son los coeficientes 
de pendiente, que permanecen inalterados aunque se viole el supuesto 3.* Además, en muchas 
aplicaciones el término del intercepto no tiene interpretación alguna. 


2 Jan Kmenta, Elements of Econometrics, 2a. ed., Macmillan, Nueva York, 1986, p. 338. (Cursivas en el origi- 
nal.) 


3 Aquí debe observarse un punto técnico. En lugar del supuesto sólido de que las X y u son independientes, 
puede servir el supuesto más débil de que los valores de las variables X y las u no están correlacionados con- 
temporáneamente (es decir, en el mismo momento). En este caso, los estimadores de MCO pueden estar 
sesgados pero son consistentes, es decir, a medida que el tamaño de la muestra se incrementa indefinida- 
mente, los estimadores convergen hacia sus valores verdaderos. Sin embargo, si las X y u están correlaciona- 
das contemporáneamente, los estimadores de MCO son sesgados al igual que inconsistentes. En el capítulo 
17 veremos que, en esta situación, algunas veces el método de variables instrumentales sirve para obte- 
ner estimadores consistentes. 


4 Es muy importante mencionar que esta afirmación es válida sólo si E(u) = w para cada i. Sin embargo, si 
E(u) = w; es decir, una constante diferente para cada i, los coeficientes de pendiente parciales pueden ser 
sesgados lo mismo que inconsistentes. En este caso, la violación del supuesto 3 será relevante. Para una 
demostración y mayores detalles, véase Peter Schmidt, Econometrics, Marcel Dekker, Nueva York, 1976, pp. 
36-39. 
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Supuesto 10: Normalidad de u 


Este supuesto no es esencial si el objetivo es solamente la estimación. Como vimos en el capítulo 
3, los estimadores de MCO son MELI sin importar que las u; estén normalmente distribuidas o 
no. Con el supuesto de normalidad, sin embargo, es posible establecer que los estimadores de 
MCO de los coeficientes de regresión siguen la distribución normal, que (n — k)6/0? sigue la 
distribución x? y que pueden utilizarse las pruebas t y F para verificar diversas hipótesis estadís- 
ticas, sin importar el tamaño de la muestra. 

Pero, ¿qué sucede si las u; no están normalmente distribuidas? Entonces se toma en cuenta la 
siguiente extensión del teorema central del límite; recuerde que fue el teorema central del límite, 
en primera instancia, el que empleamos para justificar el supuesto de normalidad: 


Si las perturbaciones [u;] son independientes y están idénticamente distribuidas con media cero 

y varianza [constante] o°, y si las variables explicativas son constantes en muestras repetidas, los 
estimadores de MC[O] de los coeficientes son asintóticamente normales con medias iguales a las $ 
correspondientes.* 


Por consiguiente, los procedimientos de prueba usuales —las pruebas t y F— son aún válidas 
asintóticamente, es decir, en muestras grandes, pero no en muestras finitas o pequeñas. 

El hecho de que los estimadores de MCO sigan una distribución normal asintótica (según el 
supuesto de varianza homoscedástica y valores fijos de X) aunque las perturbaciones no tengan 
distribución normal es de poca ayuda para los analistas económicos, que pocas veces disponen 
de datos de muestras grandes. Por tanto, el supuesto de normalidad adquiere gran importancia 
para los fines de pruebas de hipótesis y predicción. Entonces, teniendo en mente los problemas 
de estimación y de pruebas de hipótesis, y debido a que las muestras pequeñas son la regla más 
que la excepción en la mayoría de los análisis económicos, debemos mantener el supuesto de 
normalidad.* (Pero véase el capítulo 13, sección 13.12.) 

Por supuesto, esto significa que, cuando se trata de una muestra finita, se debe realizar la 
prueba explícita del supuesto de normalidad. Ya consideramos las pruebas de Anderson-Dar- 
ling y Jarque-Bera de normalidad. Se sugiere al lector aplicar éstas u otras pruebas de normali- 
dad a los residuos de la regresión. Debe tener en mente que, en muestras finitas sin el supuesto de 
normalidad, los estadísticos usuales t y F pueden no seguir las distribuciones t y F. 

Quedan los supuestos 1, 4, 5, 6, 7, 8 y 9. Los supuestos 6, 7 y 8 están estrechamente interrela- 
cionados y se analizan en el capítulo sobre multicolinealidad (10). El supuesto 4 se estudia en el 
capítulo sobre heteroscedasticidad (11); el supuesto 5, en el capítulo sobre autocorrelación (12) 
y el supuesto 9, en el capítulo sobre especificación de modelos y prueba de diagnóstico (13). De- 
bido a lo especializado de la naturaleza y a las exigencias matemáticas, analizaremos el supuesto 
1 como tema especial en la parte 3 (capítulo 14). 

Por razones pedagógicas, en cada uno de esos capítulos seguiremos un esquema común, a 
saber, 1) identificar la naturaleza del problema, 2) examinar sus consecuencias, 3) sugerir méto- 
dos para detectarlo y 4) considerar medidas correctivas de forma que produzcan estimadores con 
las propiedades estadísticas deseables analizadas en la parte 1. 


5 Henri Theil, Introduction to Econometrics, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1978, p. 240. Debe 
mencionarse que los supuestos de X fijas y a? constantes son cruciales para este resultado. 

é A propósito, observe que los efectos del incumplimiento de la normalidad y temas relacionados suele anali- 
zarse en el tema de estimación robusta en la teoría, lo cual trasciende el alcance de este libro. 
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Cabe anotar: como ya mencionamos, no hay respuestas satisfactorias a todos los problemas 
que surgen de la violación de los supuestos del MCRL. Además, puede haber más de una solu- 
ción a un problema particular y a menudo no es claro cuál es la mejor. Además, en una aplicación 
particular puede haber más de una violación al MCRL. Así, el sesgo de especificación, la multi- 
colinealidad y la heteroscedasticidad pueden coexistir en una aplicación, y no existe una prueba 
única omnipotente que resuelva todos los problemas al mismo tiempo.” Más aún, una prueba es- 
pecífica, que pudo ser muy común en alguna época, quizá ya no se aplique porque se descubrió 
que tenía alguna falla. Pero así avanza la ciencia. La econometría no es la excepción. 


7 Esto no es por falta de intentos. Véase A.K. Bera y C.M. Jarque, “Efficient Tests for Normality, Homosce- 
dasticity and Serial Independence of Regression Residuals: Monte Carlo Evidence”, Economic Letters, vol. 7, 
1981, pp. 313-318. 


Capítulo l () 


Multicolinealidad: 
¿qué pasa si las 
regresoras están 
correlacionadas? 


No hay una expresión más errónea, tanto en los libros de texto de econometría como en la bibliografía 
aplicada, que la de “problema de multicolinealidad”. Es un hecho que muchas variables explicativas 
presentan un alto grado de colinealidad; asimismo, resulta muy claro que existen diseños experi- 
mentales X’X (es decir, matriz de datos) que serían mucho más convenientes que los diseños que 
proporciona la experimentación natural (es decir, la muestra disponible). No obstante, no es nada 
constructivo quejarse de la aparente malevolencia de la naturaleza, y los remedios ad hoc para un 
mal diseño —como una regresión por pasos o una regresión en cadena— pueden ser desastrosamente 
inapropiados. Es mejor aceptar de plano que los datos que no se recopilaron mediante experimentos 
diseñados a veces no proporcionan mucha información sobre los parámetros de interés.! 


El supuesto 8 del modelo clásico de regresión lineal (MCRL) plantea que no existe multico- 
linealidad entre las regresoras incluidas en el modelo de regresión. En este capítulo considera- 
mos en forma crítica el supuesto de no multicolinealidad en busca de respuestas a las siguientes 
preguntas: 


. ¿Cuál es la naturaleza de la multicolinealidad? 
. ¿Es la multicolinealidad realmente un problema? 


1 
2 
3. ¿Cuáles son sus consecuencias prácticas? 
4. ¿Cómo se detecta? 

5 


. ¿Qué medidas pueden tomarse para aliviar el problema de multicolinealidad? 


En este capítulo también analizaremos el supuesto 6 del MCRL, a saber, que el número de 
observaciones en la muestra debe ser mayor que el de regresoras, así como el supuesto 7, que 
requiere una variabilidad suficiente en los valores de las regresoras, en vista de que ambos 


1 Edward E. Leamer, “Model Choice and Specification Analysis”, en Zvi Griliches y Michael D. Intriligator 
(eds.), Handbook of Econometrics, vol. 1, North Holland Publishing Company, Ámsterdam, 1983, 
pp. 300-301. 
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están estrechamente relacionados con el supuesto de la multicolinealidad. Arthur Goldberger 
denominó al supuesto 6 el problema de la micronumerosidad,? lo cual simplemente significa un 
tamaño pequeño de muestra. 


10.1 Naturaleza de la multicolinealidad 


El término multicolinealidad se atribuye a Ragnar Frisch.3 Originalmente, designaba una rela- 
ción lineal “perfecta” o exacta entre algunas o todas las variables explicativas de un modelo de 
regresión.* Para la regresión con k variables que incluye las variables explicativas X1, X, . . . , Xy 
(donde X; = 1 para todas las observaciones de forma que den cabida al término del intercepto), 
se dice que existe una relación lineal exacta si se satisface la siguiente condición: 


1X1 + à2X2 +--+ Xk =0 (10.1.1) 


donde à1, à2,. . . , Az, son constantes tales que no todas son simultáneamente iguales a cero.’ 

Hoy en día, sin embargo, el término multicolinealidad incluye el caso de multicolinealidad 
perfecta, como lo indica (10.1.1) y también el caso en el cual hay X variables intercorrelacionadas 
pero no en forma perfecta, de la siguiente manera: 


1X1 + 2X2 +: + å2Xk +v =0 (10.1.2) 


donde v; es un término de error estocástico. 
Para apreciar la diferencia entre multicolinealidad perfecta y multicolinealidad menos que 
perfecta suponga, por ejemplo, que 47 Æ 0. Entonces, (10.1.1) se escribe como 
di da de 


Xz = Xii X3i TRE Xi 10.1.3 
2 i3 1 da 3 da k ( ) 


que muestra la forma como X está exactamente relacionada de manera lineal con otras variables, 
o cómo se deriva de una combinación lineal de otras variables X. En esta situación, el coeficiente 
de correlación entre la variable X y la combinación lineal del lado derecho de (10.1.3) está obli- 
gado a ser igual a uno. 

En forma similar, si 12 Æ 0, la ecuación (10.1.2) se escribe como 


Xhi = 7 Xi X3i re Xķki Vi (10.1.4) 


lo cual muestra que X no es una combinación lineal exacta de otras X porque está determinada 
también por el término de error estocástico v;. 


2 Véase su obra A Course in Econometrics, Harvard University Press, Cambridge, Massachusetts, 1991, p. 249. 


3 Ragnar Frisch, Statistical Confluence Analysis by Means of Complete Regression Systems, Institute of Econo- 
mics, Oslo University, publ. núm. 5, 1934. 

4 En estricto sentido, la multicolinealidad se refiere a la existencia de más de una relación lineal exacta, y coli- 
nealidad, a la existencia de una sola relación lineal. Pero esta distinción pocas veces se mantiene en la prác- 
tica, y se hace entonces referencia a multicolinealidad en ambos casos. 


5 Las posibilidades de obtener una muestra de valores en la cual las regresoras estén relacionadas en esta 
forma son sin duda muy pocas en la práctica, excepto por diseño, cuando, por ejemplo, el número de ob- 
servaciones es menor que el número de regresoras, o si se cae en la “trampa de la variable dicótoma”, como 
analizamos en el capítulo 9. Véase el ejercicio 10.2. 


6 Si sólo hay dos variables explicativas, la intercorrelación se mide con el coeficiente de orden cero o de co- 
rrelación simple. Pero si hay más de dos variables X, la intercorrelación se mide por los coeficientes de corre- 
lación parcial o por el coeficiente de correlación múltiple R de una variable X, y se consideran en conjunto 
todas las demás variables X. 
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FIGURA 10.1 
Gráfico de Ballentine de 
multicolinealidad. 


Como ejemplo numérico, considere la siguiente información hipotética: 


X2 X3 X3 
10 50 52 
15 75 75 
18 90 97 
24 120 129 
30 150 152 


Es evidente que X3¡ = 5X¡. Por consiguiente, hay colinealidad perfecta entre X2 y X3, pues el 
coeficiente de correlación r23 es la unidad. La variable X¥ se creó de X3 agregándole simplemente 
los siguientes números, tomados de una tabla de números aleatorios: 2, 0, 7, 9, 2. Ahora ya no hay 
multicolinealidad perfecta entre X2 y X¥. Sin embargo, las dos variables están muy correlaciona- 
das, pues los cálculos indicarán que el coeficiente de correlación entre ellas es 0.9959, 

El método algebraico anterior para el problema de la multicolinealidad se expresa concisa- 
mente mediante un diagrama de Ballentine (recuerde la figura 3.8 que se reproduce en la figura 
10.1). En esta figura los círculos Y, X2 y X; representan las variaciones en Y (la variable depen- 
diente) y en X% y X; (las variables explicativas). El grado de colinealidad se mide por la magnitud 
de la intersección (área sombreada) de los círculos X y X3. En la figura 10.1a) no hay intersec- 
ción entre X? y %3, y, por tanto, no hay colinealidad. En las figuras 10.15) a 10.1e), el grado de 
colinealidad va de “bajo” a “alto”: entre mayor sea la intersección entre X2 y X; (es decir, entre 


DE 


a) No existe colinealidad b) Colinealidad baja 


c) Colinealidad moderada d) Colinealidad alta e) Colinealidad muy alta 
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mayor sea el área sombreada), mayor será el grado de colinealidad. En el extremo, si X2 y X; es- 
tuvieran superpuestos completamente (o si X, estuviera por completo dentro de X3, o viceversa), 
la colinealidad sería perfecta. 

A propósito, observe que la multicolinealidad, como la definimos, se refiere sólo a relaciones 
lineales entre las variables X. Este concepto no aplica a las relaciones no lineales entre ellas. Por 
ejemplo, considere el siguiente modelo de regresión: 


Y; = Po + BIX¡ + B2X7 + bX} + ui (10.1.5) 


donde, digamos, Y = costo total de producción y X = producción. Las variables X? (producción 
al cuadrado) y X E (producción al cubo) por supuesto están funcionalmente relacionadas con Xi, 
pero la relación es no lineal. De manera estricta, por consiguiente, modelos como (10.1.5) no 
violan el supuesto de no multicolinealidad. Sin embargo, en aplicaciones concretas, el coeficiente 
de correlación medido de forma convencional demostrará que X;, X? y X? están altamente corre- 
lacionadas, lo cual, como mostraremos, dificultará estimar los parámetros de (10.1.5) con mayor 
precisión (es decir, con errores estándar pequeños). 

¿Por qué supone el modelo clásico de regresión lineal que no hay multicolinealidad entre 
las X? El razonamiento es el siguiente: Si la multicolinealidad es perfecta en el sentido de 
(10.1.1), los coeficientes de regresión de las variables X son indeterminados, y sus errores 
estándar, infinitos. Si la multicolinealidad es menos que perfecta, como sucede en (10.1.2), 
los coeficientes de regresión, aunque sean determinados, poseen grandes errores estándar 
(en relación con los coeficientes mismos), lo cual significa que los coeficientes no pueden ser 
estimados con gran precisión o exactitud. Las pruebas de estas afirmaciones se presentan en 
las siguientes secciones. 

Existen diversas fuentes de multicolinealidad. Como afirman Montgomery y Peck, la multico- 
linealidad puede deberse a los siguientes factores:” 


1. El método de recolección de información. Por ejemplo, la obtención de muestras en un 
intervalo limitado de valores tomados por las regresoras en la población. 


2. Restricciones en el modelo o en la población objeto de muestreo. Por ejemplo, en la regre- 
sión del consumo de electricidad sobre el ingreso (X2) y el tamaño de las viviendas (X3) hay una 
restricción física en la población, pues las familias con ingresos más altos suelen habitar vivien- 
das más grandes que las familias con ingresos más bajos. 


3. Especificación del modelo. Por ejemplo, la adición de términos polinomiales a un modelo 
de regresión, en especial cuando el rango de la variable X es pequeño. 


4. Un modelo sobredeterminado. Esto sucede cuando el modelo tiene más variables expli- 
cativas que el número de observaciones. Esto puede suceder en investigación médica, donde en 
ocasiones hay un número reducido de pacientes sobre quienes se reúne información respecto de 
un gran número de variables. 


Otra razón para la multicolinealidad, sobre todo en los datos de series de tiempo, puede ser 
que las regresoras del modelo compartan una tendencia común; es decir, que todas aumenten o 
disminuyan a lo largo del tiempo. Por tanto, en la regresión del gasto de consumo sobre el in- 
greso, la riqueza y la población, las regresoras ingreso, riqueza y población tal vez todas crezcan 
con el tiempo a una tasa aproximadamente igual, con lo cual se presentaría la colinealidad entre 
dichas variables. 


7 Douglas Montgomery y Elizabeth Peck, Introduction to Linear Regression Analysis, John Wiley & Sons, Nueva 
York, 1982, pp. 289-290. Véase también R.L. Mason, R.F. Gunst y J.T. Webster, “Regression Analysis and 
Problems of Multicollinearity,” Communications in Statistics A, vol. 4, núm. 3, 1975, pp. 277-292; R. F. Gunst 
y R.L. Mason, “Advantages of Examining Multicollinearities in Regression Analysis”, Biometrics, vol. 33, 1977, 
pp. 249-260. 
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10.2 Estimación en presencia de multicolinealidad perfecta 


Ya establecimos que, en el caso de multicolinealidad perfecta, los coeficientes de regresión per- 
manecen indeterminados y sus errores estándar son infinitos. Esto se demuestra fácilmente en 
términos del modelo de regresión con tres variables. Con la forma de desviación, en la cual todas 
las variables se expresan como desviaciones de sus medias muestrales, se escribe el modelo de 
regresión con tres variables como 


yi = Baras + 3x3; + û; (10.2.1) 
Ahora, del capítulo 7, obtenemos 
p= ETA) Er E 24m 
03 x3) (> a) = pD xX2;X3; ) 
Ê; z © vix) © x) E (© vixx) © xX2ixX3;) 
(E x3,) È x3,) z $3 xax) 


Suponga que X3; = 1X»;, donde A es una constante diferente de cero (por ejemplo, 2, 4, 1.8, etc.). 
Si sustituimos esto en (7.4.7) obtenemos 


(rira (02 3) — AD) ira) (AD 3) 
13) 34)-2 (23) (10.2.2) 


(7.4.8) 


ĝ» = 
0 
0 


que es una expresión indeterminada. El lector puede verificar que Ê también es indetermi- 
nada. ` 

¿Por qué obtenemos el resultado que aparece en (10.2.2)? Recuerde el significado de £2: da la 
tasa de cambio en el valor promedio de Y a medida que X2 cambia en una unidad, manteniendo 
X3 constante. Pero si X3 y X son perfectamente colineales, no hay forma de que X3 se mantenga 
constante: a medida que X cambia, también lo hace X; por el factor A. Esto significa, entonces, 
que no hay forma de desenredar las influencias separadas de X) y X; de la muestra dada: para 
fines prácticos, X2 y A3 son indistinguibles. En la econometría aplicada, este problema ocasiona 
mucho daño, pues la idea consiste en separar los efectos parciales de cada X sobre la variable 
dependiente. 

Para ver esto de otra forma, sustituya X3; = 1A%; en (10.2.1) y obtendrá lo siguiente [véase 
también (7.1.12)]: 


Yi = zxz + Balas) + û; 


= (Ê> + A ĝs)x2; + Ĝi (10.2.3) 
= ĝxXz; + Û; 
donde 
â = (Êz +83) (10.2.4) 


8 Otra forma de ver esto es la siguiente: por definición, el coeficiente de correlación entre X2 y X3, 123, 
es Y Xx2X3/./ 9 K y E Si 13 = 1, es decir, si existe colinealidad perfecta entre X2 y X3, el denominador 
de (7.4.7) será cero, lo que imposibilita la estimación de £2 (o de £3). 
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Al aplicar la conocida fórmula de MCO a (10.2.3) obtenemos 


A 2 A D X2i Vi 
â = (b2 + àb) = EH (10.2.5) 
DA 
Por consiguiente, aunque se puede estimar «œ en forma única, no hay forma de estimar $2 y f3 en 
forma igualmente única; matemáticamente, 


â = Êz +A, (10.2.6) 


nos proporciona una sola ecuación con dos incógnitas (observe que A está dada) y existen in- 
finidad de soluciones para (10.2.6) con valores dados de å y A. Para expresar esto en términos 
concretos, sea Y = 0.8 y à = 2. Entonces: 


0.8 = f, +28; (10.2.7) 


Êz = 0.8 — 283 (10.2.8) 


Ahora seleccione un valor de Bs arbitrariamente y tendrá una solución para $». Seleccione otro 
valor para $3 y tendrá otra solución para $2. No importa cuánto lo intente, no existe un valor 
único para 6». 

La conclusión del análisis anterior es que, en el caso de multicolinealidad perfecta, no puede 
obtenerse una solución única para los coeficientes de regresión individual. Pero observe que se 
puede obtener una solución única para combinaciones lineales de estos coeficientes. La combi- 
nación lineal (8, + 1883) se estima en forma única con a, dado el valor de 1.? 

Asimismo, observe que en el caso de multicolincalidad perfecta, las varianzas y los errores 
estándar de f2 y £3 individualmente son infinitos. (Véase el ejercicio 10.21.) 


10.3 Estimación en presencia de multicolinealidad “alta” 
pero “imperfecta” 


La situación de multicolinealidad perfecta es un extremo patológico. Por lo general no existe una 
relación lineal exacta entre las variables X, en especial en información económica relacionada 
con series de tiempo. Por tanto, de regreso al modelo de tres variables en forma de desviación 
dado en (10.2.1), en lugar de multicolinealidad exacta podemos tener 


X3i = AXoj + vi (10.3.1) 


donde à Æ 0 y donde v; es un término de error estocástico tal que ` x>;v; = 0. (¿Por qué?) 

A propósito, los diagramas de Ballentine que aparecen en la figura 10.15) a 10.1e) representan 
casos de colinealidad imperfecta. 

En este caso, sería posible la estimación de los coeficientes de regresión 6» y p3. Por ejemplo, 
al sustituir (10.3.1) en (7.4.7) obtenemos 


b m Nr) (A DEHE DD v?) — (à Y yix + X yiv) (à Das) 
LARDAL- 0E) 


donde se aprovecha que }` xz;v; = 0. Se deriva una expresión similar para 63. 


(10.3.2) 


? En teoría econométrica, una función del tipo (82 + 1f$3) se conoce como función estimable. 
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Ahora, a diferencia de (10.2.2), no hay razón a priori para pensar que (10.3.2) no pueda esti- 
marse. Desde luego, si v; es lo bastante pequeño, es decir, muy cercano a cero, (10.3.1) indicará 
colinealidad casi perfecta, y regresaremos al caso indeterminado de (10.2.2). 


10.4 Multicolinealidad: ¿tanto para nada? 
Consecuencias teóricas de la multicolinealidad 


Recuerde que si se satisfacen los supuestos del modelo clásico, los estimadores de MCO de los 
coeficientes de regresión son MELI (o MEL, si se añade el supuesto de normalidad). Ahora puede 
demostrarse que, aunque la multicolinealidad sea muy alta, como en el caso de casi multicoli- 
nealidad, los estimadores de MCO conservarán la propiedad MELI.'% Entonces, ¿cuáles son los 
inconvenientes de la multicolinealidad? Christopher Achen comenta al respecto (tenga en cuenta 
también la cita de Leamer del principio de este capítulo): 


Los novatos en el estudio de la metodología en ocasiones se preocupan porque sus variables inde- 
pendientes estén correlacionadas: el llamado problema de multicolinealidad. Sin embargo, la multi- 
colinealidad no viola los supuestos básicos de la regresión. Se presentarán estimaciones consistentes 
e insesgadas y sus errores estándar se estimarán en la forma correcta. El único efecto de la multico- 
linealidad tiene que ver con la dificultad de obtener los coeficientes estimados con errores estándar 
pequeños. Sin embargo, se presenta el mismo problema al contar con un número reducido de obser- 
vaciones o al tener variables independientes con varianzas pequeñas. (De hecho, en el nivel teórico, 
los conceptos de multicolinealidad, número reducido de observaciones y varianzas pequeñas en las 
variables independientes forman parte esencial del mismo problema.) Por tanto, la pregunta “¿qué 
debe hacerse entonces con la multicolinealidad?” es similar a “¿qué debe hacerse si no se tienen 
muchas observaciones?” Al respecto no hay una respuesta estadística.!! 


Para referirse a la importancia del tamaño de la muestra, Goldberger acuñó el término micro- 
numerosidad, como contraparte del exótico nombre polisílabo de multicolinealidad. De acuer- 
do con Goldberger, la micronumerosidad exacta (la contraparte de multicolinealidad exacta) 
surge cuando n, el tamaño de la muestra, es cero, en cuyo caso es imposible cualquier clase de 
estimación. La casi micronumerosidad, igual que la casi multicolinealidad, surge cuando el nú- 
mero de observaciones escasamente excede al número de parámetros que se va a estimar. 

Leamer, Achen y Goldberger están en lo correcto al lamentar la falta de atención al problema 
del tamaño de la muestra, lo mismo que al problema de multicolinealidad. Por desgracia, en el 
trabajo aplicado que comprende información secundaria (es decir, información recopilada por 
alguna institución, como la información del PNB recopilada por el gobierno), es posible que un 
investigador por sí solo no pueda hacer gran cosa sobre el tamaño de la información muestral, 
y quizá deba enfrentar “la estimación de problemas lo bastante importantes para justificar su 
tratamiento [por ejemplo, la multicolinealidad] como una violación del modelo CRL [clásico de 
regresión lineal]”.!? 

Primero, es cierto que aun en el caso de casi multicolinealidad los estimadores de MCO son 
insesgados. Pero el insesgamiento es una propiedad multimuestral o de muestreo repetido. Esto 
significa que, si mantenemos fijos los valores de X, si obtenemos muestras repetidas y calculamos 
los estimadores de MCO para cada una de esas muestras, el promedio de los valores muestrales 
se aproximará a los verdaderos valores poblacionales de los estimadores a medida que aumenta 
el número de las muestras. Pero esto nada dice sobre las propiedades de los estimadores en una 
muestra dada. 


10 Como la casi multicolinealidad por sí misma no viola los demás supuestos enumerados en el capítulo 7, 
los estimadores de MCO son MELI, como allí se indica. 


11 Christopher H. Achen, Interpreting and Using Regression, Sage, Beverly Hills, California, 1982, pp. 82-83. 
12 Peter Kennedy, A Guide to Econometrics, 3a. ed., The MIT Press, Cambridge, Massachusetts, 1992, p. 177. 
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Segundo, también es cierto que la colinealidad no destruye la propiedad de varianza mínima: 
en la clase de los estimadores lineales insesgados, los estimadores de MCO tienen varianza mí- 
nima; es decir, son eficientes. Pero esto no significa que la varianza de un estimador de MCO 
necesariamente sea pequeña (en relación con el valor del estimador) en cualquier muestra dada, 
como demostraremos en breve. 

Tercero, la multicolinealidad es en esencia un fenómeno (de regresión) muestral en el sentido en 
que, aunque las variables X no estén linealmente relacionadas en la población, pueden estarlo 
en la muestra particular disponible: cuando se postula la función de regresión teórica o pobla- 
cional (FRP), se considera que todas las variables X incluidas del modelo ejercen una influencia 
separada o independiente sobre la variable dependiente Y. Pero puede suceder que en cualquier 
muestra dada con que se pruebe la FRP, alguna o todas las variables X sean tan colineales que no 
sea posible aislar su influencia individual sobre Y. Es decir, la muestra falla aunque la teoría es- 
tablezca que todas las X son importantes. En resumen, la muestra puede no ser lo bastante “rica” 
para acomodar todas las variables X en el análisis. 

A manera de ilustración, reconsidere el ejemplo consumo-ingreso del capítulo 3. Los econo- 
mistas teorizan que, además del ingreso, la riqueza del consumidor es también un determinante 
importante del gasto de consumo. Así, podemos escribir 


Consumo; = 61 + fB2 Ingreso; + $3 Riqueza; + ui 


Ahora, puede suceder que cuando se obtiene información sobre el ingreso y la riqueza, las dos 
variables pueden estar muy correlacionadas, aunque no en forma perfecta: la gente con mayor 
riqueza por lo general tiende a percibir mayores ingresos. Así, aunque, en teoría, el ingreso y 
la riqueza son candidatos lógicos para explicar el comportamiento del gasto de consumo, en la 
práctica (es decir, en la muestra) puede ser difícil distinguir las influencias separadas del ingreso 
y de la riqueza sobre el gasto de consumo. 

Lo ideal para evaluar los efectos individuales de la riqueza y del ingreso sobre el gasto de 
consumo es un número suficiente de observaciones muestrales de individuos con riqueza pero con 
ingresos bajos, e individuos de altos ingresos con escasa riqueza (recuerde el supuesto 7). Aun- 
que esto puede ser posible en los estudios de corte transversal (al incrementar el tamaño de la 
muestra), es muy difícil en el trabajo de series de tiempo agregadas. 

Por todas estas razones, el hecho de que los estimadores de MCO sean MELI a pesar de la 
presencia de multicolinealidad es poco consuelo en la práctica. Se debe ver lo que sucede o puede 
suceder en una muestra dada, tema analizado en la siguiente sección. 


10.5 Consecuencias prácticas de la multicolinealidad 


En los casos de casi o alta multicolinealidad es probable que se presenten las siguientes conse- 
cuencias: 


1. Aunque los estimadores de MCO son MELI, presentan varianzas y covarianzas grandes que 
dificultan la estimación precisa. 


2. Debido a la consecuencia 1, los intervalos de confianza tienden a ser mucho más amplios, lo 
cual propicia una aceptación más fácil de la “hipótesis nula cero” (es decir, que el verdadero 
coeficiente poblacional es cero). 

3. También debido a la consecuencia 1, la razón ź de uno o más coeficientes tiende a ser estadís- 
ticamente no significativa. 

4. Aunque la razón ź de uno o más coeficientes sea estadísticamente no significativa, R?, la me- 
dida global de bondad de ajuste, puede ser muy alta. 

5. Los estimadores de MCO y sus errores estándar son sensibles a pequeños cambios en los 
datos. 


Las consecuencias anteriores se demuestran de la siguiente manera. 
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Estimadores de MCO con varianzas y covarianzas grandes 


Para ver varianzas y covarianzas grandes, recuerde que, para el modelo (10.2.1), las varianzas y 
covarianzas de f2 y P3 están dadas por 


2 


A a" 
var (b2) = EEA) (7.4.12) 
2 
var(B3) = == (7.4.15) 
Ya ll = r23) 
> 2 
cov (Êz, Âs) = da (7.4.17) 


(1 a 133) Ez Exi 


donde r23 es el coeficiente de correlación entre X y X3. 

De (7.4.12) y (7.4.15) se desprende que, a medida que r23 tiende a 1, es decir, a medida que 
aumenta la colinealidad, también lo hacen las varianzas de los dos estimadores y, en el límite, 
cuando 723 = 1, son infinitas. Es igualmente claro de (7.4.17) que, a medida que r23 aumenta 
hacia 1, la covarianza de los dos estimadores también aumenta en valor absoluto. [Vota: cov (f2, 
B3) = cov (83, B2).] 

La velocidad con que se incrementan las varianzas y covarianzas se ve con el factor inflacio- 
nario de la varianza (FIV), que se define como 


1 
HI (10.5.1) 


(1 —r3) 


El FIV muestra la forma como la varianza de un estimador se infla por la presencia de la multi- 
colinealidad. A medida que r2, se acerca a 1, el FIV se acerca a infinito. Es decir, a medida que 
el grado de colinealidad aumenta, la varianza de un estimador también y, en el límite, se vuelve 
infinita. Como se aprecia, si no hay colinealidad entre X? y X3, el FIV será 1. 

Con esta definición, (7.4.12) y (7.4.15) se expresan como 


2 


o 
=> FIV 10.5.2 
Dai i i 


var (Êz) = 


[0 2 F 
Èx 3i 
lo cual muestra que las varianzas de ê y É3 son directamente proporcionales al FIV. 

Para dar alguna idea de la rapidez con que aumentan estas varianzas y covarianzas a medida 
que lo hace r23, considere la tabla 10.1, que da estas varianzas y covarianzas para valores selec- 
cionados de r23. Como lo indica esta tabla, los aumentos en r23 tienen un efecto drástico sobre 
las varianzas y covarianzas estimadas de los estimadores de MCO. Cuando r23 = 0.50, la var (82) 
es 1.33 veces la varianza cuando r23 es cero, pero, para cuando r23 alcance 0.95, será alrededor 
de 10 veces más alta que cuando no hay colinealidad. Observe bien que un incremento de r23 de 
0.95 a 0.995 hace que la varianza estimada sea 100 veces la obtenida cuando la colinealidad es 
cero. Se observa el mismo efecto espectacular sobre la covarianza estimada. Todo esto se ve en 
la figura 10.2. 

Los resultados recién analizados se extienden fácilmente al modelo con k variables. En un 
modelo así, la varianza del k-ésimo coeficiente, como vimos en (7.5.6), se expresa como: 


A o? 1 7.56 
Mi =r (7.5.6) 


var(B3) = IV (10.5.3) 
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TABLA 10.1 R 
Efecto de incrementar yan (b2) (r23 + 0) Ma 
r3 sobre la var ($3) y la Valor de r23 FIV var ($2) var (B2)(r23 = 0) cov ($z, B3) 
cov ($2, 3) a) (2) ey (4) (5) 
0.00 1.00 A = 0 
2 aj 
0.50 185 1.33x A 1,33 0.67 x B 
0.70 1 1.96 x A 1.96 ¡ES7É4B 
0.80 2.78 2.78x A 2.78 DADDEE E 
0.90 5.76 5.26 x A 5.26 4.73x B 
0.95 10.26 10.26 x A 10.26 9.74 x B 
0.97 16.92 16.92 x A 16.92 16.41 x B 
0.99 50:25 50.25 x A 5025 49.75 x B 
0.995 100.00 100.00 x A 100.00 IS ORB: 
0.999 500.00 500.00 x A 500.00 499.50 x B 
o? 
Nota: A = A 
—o? 
i ====== 
y Dri Dx; 
x = multiplicación 
* Para calcular el efecto de incrementar r,3 sobre var(B3), observe que A = o?/ DD Xa cuando r,3 = 0; no obstante, los factores 
magnificadores de la varianza y covarianza permanecen iguales. 
FIGURA 10.2 var (Ê) 


Comportamiento de la 
var (82) como función 
de 123. 


| l I I 
0 0.5 0.8 0.9 1.0 


3 


donde É ; = coeficiente parcial (estimado) de la regresora X; 
R? = R? en la regresión de X; sobre las regresiones restantes (k — 2) [Nota: Existen 
(k — 1) regresoras en el modelo de regresión de k variables. ] 


FN= ay 
(7.5.6) también se expresa como 

¿a 
Ex 


Como puede observar en esta expresión, var ($;) es proporcional a a? y a FIV, pero inversamente 


var(B;) = FIV; (10.5.4) 


proporcional a Pa. En consecuencia, el que var (Ê) sea grande o pequeña depende de tres 
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ec la Valor de r23 Intervalo de confianza a 95% para £2 
colinealidad sobre 0.00 B2 +1.96 ECan 
el intervalo de confianza Lxi 
a 95% para Z o2 
bz: B2 + 1.96 ee (ĝ2) 0.50 B2 + 1.96/(1.33) S 
2i 


2 
0.95 B2+1.96/10.26) | => 
7x3; 

2 

0.995 B2 + 1.96/00) | > 
2 xi 

2 

0.999 6 (500) AE 
£x 


Nota: Se usa la distribución normal porque suponemos que se conoce o? por conveniencia. 
De ahí que utilicemos 1.96, el factor de confianza de 95% para la distribución normal. 

Los errores estándar que corresponden a los diversos valores de r23 se obtienen de la 
tabla 10.1. 


ingredientes: 1) 0?, 2) FIV y 3) Da. Este último ingrediente, que se vincula al supuesto 8 del 
modelo clásico, establece que mientras más grande sea la variabilidad en una regresora, más 
pequeña será la varianza del coeficiente de esa regresora, si suponemos que los otros dos ingre- 
dientes son constantes; por tanto, será mayor la precisión para estimar dicho coeficiente. 

Antes de seguir adelante, cabe observar que el inverso del FIV se conoce como tolerancia 
(TOL). Es decir, 


1 
TOL.= == =(= 10.5.5 
2 FIV; j) ( ) 
Cuando R? = 1 (es decir, colinealidad perfecta), TOL; = 0, y cuando R? = 0 (es decir, no existe 
ninguna colinealidad), TOL; es 1. Debido a la estrecha conexión entre el FIV y la TOL pueden 
utilizarse de manera indistinta. 


Intervalos de confianza más amplios 


Debido a los errores estándar grandes, los intervalos de confianza para los parámetros pobla- 
cionales relevantes tienden a ser mayores, como se ve en la tabla 10.2. Por ejemplo, cuando 
r23 = 0.95, el intervalo de confianza para $2 es más grande que cuando r23 = 0 por un factor de 
/10.26, o alrededor de 3. 

Por consiguiente, en casos de alta multicolinealidad, los datos muestrales pueden ser compa- 
tibles con un diverso conjunto de hipótesis. De ahí que aumente la probabilidad de aceptar una 
hipótesis falsa (es decir, un error tipo II). 


Razones t “no significativas” 

Recuerde que para probar la hipótesis nula de que, por ejemplo, 2 = 0, utilizamos la razón 1, es 
decir, B2/ee (2) y comparamos el valor £ estimado con el valor £ crítico de la tabla £. Pero, como 
vimos, en casos de alta colinealidad los errores estándar estimados aumentan drásticamente, lo 
que disminuye los valores £. Por consiguiente, en tales casos se acepta cada vez con mayor facili- 
dad la hipótesis nula de que el verdadero valor poblacional relevante es cero.!* 


13 En términos de intervalos de confianza, a medida que aumenta el grado de colinealidad, el valor $2= 0 se 
ubica cada vez más en la región de aceptación. 
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Una R? alta pero pocas razones t significativas 
Considere el modelo de regresión lineal con k variables: 


Y, = Pi + B2X 2 + B3X3 +: + BA pi +45 


En casos de alta colinealidad es posible encontrar, como acabamos de mencionar, que uno o más 
coeficientes parciales de pendiente son, de manera individual, no significativos estadísticamen- 
te con base en la prueba 1. Aun así, R? en tales situaciones puede ser tan alto, digamos, superior 
a 0.9, que, con base en la prueba F, es posible rechazar convincentemente la hipótesis de que 
B2= PB3=---= Bx=0. En realidad, ésta es una de las señales de multicolinealidad: valores t no 
significativos pero un R? global alto (y un valor F significativo). 

Demostraremos lo anterior en la siguiente sección, pero este resultado no debe sorprender si 
tomamos en cuenta el análisis de las pruebas individuales comparadas con las pruebas conjuntas 
del capítulo 8. Como recordará, el problema real aquí consiste en que las covarianzas entre los 
estimadores, como indica la fórmula (7.4.17), están relacionadas con las correlaciones entre 
las regresoras. 


Sensibilidad de los estimadores de MCO y sus errores 
estándar ante cambios pequeños en los datos 
Siempre que la multicolinealidad no sea perfecta, es posible la estimación de los coeficientes de 


regresión; sin embargo, las estimaciones y sus errores estándar se tornan muy sensibles aun al 
más ligero cambio de los datos. 

Para ver esto considere la tabla 10.3. Con base en estos datos obtenemos la siguiente regresión 
múltiple: 

Y, = 1.1939 + 0.4463X, + 0.0030X:, 
(0.7737) (0.1848) (0.0851) 
t = (1.5431) (2.4151) (0.0358) (10.5.6) 
R? = 0.8101 r23 = 0.5523 
cov (Ê, $3) = —0.00868 gl=2 

La regresión (10.5.6) muestra que ninguno de los coeficientes de regresión es individualmente 
significativo en los niveles de significancia convencionales de 1 o de 5%, a pesar de que f2 
sea significativo en el nivel de 10% con base en la prueba £ de una cola. 


Ahora considere la tabla 10.4. La única diferencia entre las tablas 10.3 y 10.4 es que se intercam- 
biaron el tercer y el cuarto valores de X3. Con la información de la tabla 10.4 ahora obtenemos 


Y, = 1.2108 + 0.4014X,+ 0.0270X;; 
(0.7480) (0.2721) (0.1252) 
t=(1.6187) (1.4752) (0.2158) (10.5.7) 

R? = 0.8143 r23 = 0.8285 

cov (Êz, $3) = —0.0282 gl=2 
Como resultado de un ligero cambio en los datos vemos que Ê, antes estadísticamente signifi- 
cativo en un nivel de significancia de 10%, deja ahora de serlo aun en ese nivel. Observe también 
que en (10.5.6) la cov (£2, 63) = —0.00868 mientras que en (10.5.7) es —0.0282, un aumento 


superior a tres veces su valor inicial. Todos estos cambios pueden atribuirse a un aumento de 
la multicolinealidad: en (10.5.6), r23 = 0.5523, mientras que en (10.5.7) este coeficiente es 
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10.6 Ejemplo 


TABLA 10.3 Datos hipotéticos de TABLA 10.4 Datos hipotéticos de 
Y, X y X3 Y, X2 y X3 
Y X2 X3 Y X2 X3 
1 2 4 1 2 4 
2 0 2 2 0 2 
3 4 12 3 4 0 
4 6 0 4 6 12 
5 8 16 5 8 16 


de 0.8285. En forma similar, los errores estándar de Ê y Ba aumentan entre las dos regresiones, 
síntoma característico de la colinealidad. 

Ya mencionamos que, en presencia de una alta colinealidad, no se pueden estimar los coefi- 
cientes de regresión individuales en forma precisa, pero que las combinaciones lineales de estos 
coeficientes se estiman con mayor exactitud. Esto se confirma con las regresiones (10.5.6) y 
(10.5.7). En la primera regresión, la suma de los dos coeficientes parciales de las pendientes es 
0,4493, en tanto que en la segunda regresión dicha suma es 0.4284, prácticamente la misma. No 
sólo eso: sus errores estándar son prácticamente los mismos, 0.1550 frente a 0.1823.!* Observe, 
sin embargo, que el coeficiente de X3 cambió en forma notoria, de 0.003 a 0.027. 


Consecuencias de la micronumerosidad 

En una parodia de las consecuencias de multicolinealidad y de manera informal, Goldberger cita 
consecuencias exactamente iguales del análisis basado en muestras pequeñas, es decir, de la mi- 
cronumerosidad.!* Se aconseja al lector consultar el análisis de Goldberger para ver la razón por 
la cual da la misma importancia a la micronumerosidad que a la multicolinealidad. 


ilustrativo 


EJEMPLO 10.1 
Gasto de consumo 
en relación con el 
ingreso y la riqueza 


Para ilustrar los puntos mencionados hasta ahora, reconsideremos el ejemplo consumo-ingreso 
de la introducción. La tabla 10.5 contiene datos hipotéticos sobre consumo, ingreso y riqueza. 
Si suponemos que el gasto de consumo se relaciona linealmente con el ingreso y la riqueza, en- 
tonces, con base en la tabla 10.5, obtenemos la siguiente regresión: 
Y, = 24.7747 + 0.9415X2;-  0.0424X3; 
(6.7525) (0.8229) (0.0807) 
t= (3.6690) (1.1442) (0.5261) 
R= 0065 F=0953]) g=7 


(10.6.1) 


14 Estos errores estándar se obtienen de la fórmula 


ee ($2 + $3) = var (ĝa) + var (3) + 2 cov(B2, $3) 


Observe que, al aumentar la colinealidad, también lo hacen las varianzas de £2 y £3, pero pueden compen- 
sarse si existe una alta covarianza negativa entre ambas, como lo indican claramente los resultados. 


15 Goldberger, op. cit., pp. 248-250. 


TABLA 10.6 

Tabla ANOVA para el 
ejemplo de consumo, 
ingreso y riqueza 
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TABLA 10.5 Datos hipotéticos de gasto de consumo Y, ingreso X, y riqueza X3 


Y $ Xz $ X3, $ 
70 80 810 
65 100 1 009 
90 120 1 273 
95 140 1 425 
110 160 1633 
115 180 1876 
120 200 21052 
140 220 2 201 
155 240 2 435 
150 260 2 686 
Origen de la variación SC gl SPC 
Debido a la regresión 8 565.5541 2 4 282.7770 
Debido a residuos 324.4459 7 46.3494 


La regresión (10.6.1) muestra que el ingreso y la riqueza explican en conjunto alrededor 
de 96% de la variación en los gastos de consumo. A pesar de esto, ningún coeficiente de las 
pendientes es estadísticamente significativo de manera individual. Además, no sólo la variable 
riqueza es estadísticamente no significativa, sino que también tiene el signo incorrecto. A priori, 
se esperaría una relación positiva entre el consumo y la riqueza. A pesar de que f2 y $3 no son 
significativos individualmente en términos estadísticos, si se prueba la hipótesis de que 62 = 
B3 = O simultáneamente, esta hipótesis puede rechazarse, como lo demuestra la tabla 10.6. 
Según el supuesto usual obtenemos 


4 282.7770 


SH > 92.4019 (10.6.2) 
Como es obvio, este valor Fes muy significativo. 

Es interesante observar este resultado desde un punto de vista geométrico. (Véase la figura 
10.3.) Con base en la regresión (10.6.1) se establecieron intervalos de confianza individuales a 
95% de confianza para f2 y p3 según el procedimiento usual del capítulo 8. Como muestran 
estos intervalos, cada uno de ellos, en forma individual, incluye el valor de cero. Por tanto, in- 
dividualmente podemos aceptar la hipótesis de que las dos pendientes parciales son cero. Pero 
cuando establecemos el intervalo de confianza conjunto para probar la hipótesis de que 62 = 
ß3 = 0, esa hipótesis no puede aceptarse, pues el intervalo de confianza conjunto, en realidad 
una elipse, no incluye el origen.!é Como ya señalamos, cuando la colinealidad es alta, no son 
confiables las pruebas sobre las regresoras individuales; en tales casos, la prueba F global es la 
que mostrará si Y está relacionada con las diversas regresoras. 

El ejemplo muestra en forma muy evidente lo que hace la multicolinealidad. El hecho de que 
la prueba F sea significativa pero los valores t de X2 y X3 no sean significativos individualmente 
implica que las dos variables están tan correlacionadas que es imposible aislar el impacto indi- 


(continúa) 


16 Como mencionamos en la sección 5.3, el tema de intervalos de confianza conjuntos es muy complicado. 
El lector interesado puede consultar la referencia citada allí. 
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EJEMPLO 10.1 


(continuación) 


FIGURA 10.3 Intervalos de confianza individuales para 62y £3 e intervalo de confianza conjunto 
(elipse) para B2 y 63. 


Intervalo de confianza conjunto 


a 95% para B) y BP 
Intervalo de confianza 


a 95% para P3 


Intervalo de confianza 
a 95% para B> 


+- 0.2332 


vidual del ingreso o de la riqueza sobre el consumo. De hecho, si efectuamos la regresión de X3 
sobre X2, obtenemos 


X3¡= 7.5454 + 10.1909X); 
(29.4758) (0.1643) (10.6.3) 
t= (0.2560) (62.0405) R?= 0.9979 


lo cual muestra una colinealidad casi perfecta entre X3 y X2. 
Ahora veamos lo que sucede si sólo efectuamos la regresión de Y sobre X2: 


Y, =24.4545 + 0.5091Xo; 
(6.4138) (0.0357) (10.6.4) 
t = (3.8128) (14.2432) R2 = 0.9621 


En (10.6.1), la variable ingreso no era estadísticamente significativa, mientras que ahora es muy 
significativa. Si en lugar de efectuar la regresión de Y sobre X2 lo hacemos sobre X3, obtene- 
mos 


Y, = 24.411 + 0.0498X3; 
(6.874) (0.0037) (10.6.5) 
t= (3.551) (13.29) R2? = 0.9567 


Se observa que la riqueza tiene ahora un impacto significativo sobre el gasto de consumo, mien- 
tras que en (10.6.1) no tenía ninguno. 

Las regresiones (10.6.4) y (10.6.5) muestran con toda claridad que, en situaciones de ex- 
trema multicolinealidad, eliminar la variable altamente colineal con frecuencia provoca que la 
otra variable X se torne estadísticamente significativa. Este resultado sugiere que una forma de 
evadir la colinealidad extrema es eliminar la variable colineal, tema que veremos con mayor 
detalle en la sección 10.8. 
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EJEMPLO 10.2 
Función de con- 
sumo para Estados 
Unidos, 1947-2000 


Fuente: Véase la tabla 7.12. 


A continuación consideraremos un grupo concreto de datos sobre gasto de consumo real (C), 
ingreso personal disponible real (Yd), riqueza real (W) y tasa de interés real (I) para Estados Uni- 
dos de 1947 a 2000. Los datos originales se presentan en la tabla 10.7. 


TABLA 10.7 Gasto de consumo en Estados Unidos del periodo 1947-2000 


Año Cc Yd Ww l 

1947 976.4 1 035.2 5 166.815 —10.35094 
1948 998.1 1 090 5 280.757 —4.719804 
1949 1 025.3 1 095.6 5 607.351 1.044063 
1950 1 090.9 1192.7 5 759.515 0.407346 
1951 1 107.1 1 227 6 086.056 —5.283152 
1952 1 142.4 1 266.8 6 243.864 —0.277011 
1953 1 197.2 1 327.5 6 355.613 0.561137 
1954 1 221.9 1 344 6 797.027 —0.138476 
1955 1 310.4 1 433.8 7 172.242 0.261997 
1956 1 348.8 1 502.3 7 375.18 —0.736124 
1957 1 381.8 1 539.5 7 315.286 —0.260683 
1958 1 393 1 553.7 7 869.975 —0.57463 
1959 1 470.7 1 623.8 8 188.054 2.295943 
1960 1 510.8 1 664.8 8 351.757 1.511181 
1961 1 541.2 1720 8 971.872 1.296432 
1962 1617.3 1 803.5 9 091.545 1.395922 
1963 1 684 1871.5 9 436.097 2.057616 
1964 1 784.8 2 006.9 10 003.4 2.026599 
1965 1 897.6 2131 10 562.81 2.111669 
1966 2 006.1 2 244.6 10 522.04 2.020251 
1967 2 066.2 2 340.5 11 312.07 1.212616 
1968 2 184.2 2 448.2 12 145.41 1.054986 
1969 2 264.8 2 524.3 11 672.25 1.732154 
1970 2 317.5 2 630 11 650.04 1.166228 
1971 2 405.2 2 745.3 12 312.92 —0.712241 
1972 2 550.5 2 874.3 13 499.92 —0.155737 
1973 2 675.9 3 072.3 13 080.96 1.413839 
1974 2 653.7 3 051.9 11 868.79 —1.042571 
1975 2 710.9 3 108.5 12 634.36 —3.533585 
1976 2 868.9 3 243.5 13 456.78 —0.656766 
1977 2 992.1 3 360.7 13 786.31 -1.190427 
1978 3 124.7 3 527.5 14 450.5 0.113048 
1979 3 203.2 3 628.6 15 340 1.70421 
1980 3193 3 658 15 964.95 2.298496 
1981 3 236 3 741.1 15 964.99 4.703847 
1982 3 275.5 3791.7 16 312.51 4.449027 
1983 3 454.3 3 906.9 16 944.85 4.690972 
1984 3 640.6 4 207.6 17 526.75 5.848332 
1985 3 820.9 4 347.8 19 068.35 4.330504 
1986 3 981.2 4 486.6 20 530.04 3.768031 
1987 4113.4 4 582.5 21 235.69 2.819469 
1988 4 279.5 4 784.1 22 331.99 3.287061 


(continúa) 
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EJEMPLO 10.2 


TABLA 10.7 Continuación 


(continuación) 
Año C Yd WwW l 
1989 4 393.7 4 906.5 23 659.8 4.317956 
1990 4 474.5 5 014.2 23 105.13 3.595025 
1991 4 466.6 5 033 24 050.21 1.802757 
1992 4 594.5 5 189.3 24 418.2 1.007439 
1993 4 748.9 5 261.3 25 092.33 0.62479 
1994 4 928.1 5 397.2 25 218.6 2.206002 
1995 5 075.6 5 539.1 27 439.73 3.333143 
1996 5 237.5 5 677.7 29 448.19 3.083201 
1997 5 423.9 5 854.5 32 664.07 3.12 
1998 5 683.7 6 168.6 35 587.02 3.583909 
1999 5 968.4 6 320 39 591.26 3.245271 
2000 6 257.8 6 539.2 38 167.72 3.57597 
Empleamos lo siguiente para el análisis: 

In Ci = B1 + B2 In Yd; + B3 In W: + Bal; + ut (10.6.6) 


donde In significa logaritmo. 

En este modelo, los coeficientes £2 y B3 dan las elasticidades del ingreso y la riqueza, respec- 
tivamente (¿por qué?), y 64 da la semielasticidad (¿por qué?). Los resultados de la regresión 
(10.6.6) se presentan en la siguiente tabla: 


Variable dependiente: LOG (C) 
Método: Mínimos cuadrados 
Muestra: 1947-2000 
Observaciones incluidas: 54 


Coeficiente Error estándar Estadístico t Probabilidad 
C =0,467711 0.042778 =10.,.93343 0.0000 
LOG (YD) 0.804873 0.017498 45.99836 0.0000 
LOG (RIQUEZA) 0.201270 07017593 11.44060 0.0000 
INTERÉS -0.002689 0.000762 =3.292 9205 0.0009 
R cuadrada 0.999560 Media de la variable 
R cuadrada ajustada 0.999533 dependiente 7.826093 
Error estándar de la regresión 0.011934 Desviación estándar de la 
Suma de cuadrados residual 0.007121 variable dependiente 0.552368 
Log verosimilitud 164.5880 Criterio de información de 
Estadístico F 37 132,59 Akaike -5.947703 
Probabilidad (estadístico F) 0.000000 Criterio de Schwarz -5.800371 
Criterio de Hannan-Quinn -5.890883 


Estadístico de Durbin-Watson 


1239219 


Nota: LOG significa logaritmo natural. 


Los resultados demuestran que todos los coeficientes estimados son muy significativos desde 
el punto de vista estadístico, pues sus valores p son muy pequeños. Los coeficientes estimados 
se interpretan como sigue: la elasticidad del ingreso es ~ 0.80, lo que indica que, cuando las 
demás variables se mantienen constantes, si el ingreso aumenta 1%, la media del gasto de con- 
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sumo aumenta alrededor de 0.8%. El coeficiente de riqueza es ~ 0.20, lo que significa que si 
la riqueza aumenta 1%, la media del consumo se incrementa sólo 0.2%, de nuevo cuando las 
demás variables se mantienen constantes. El coeficiente de la variable tasa de interés indica que, 
a medida que la tasa de interés aumenta un punto porcentual, el gasto de consumo disminuye 
0.26%, ceteris paribus. 

Todas las regresoras tienen signos que concuerdan con las expectativas previas, es decir, el 
ingreso y la riqueza tienen efecto positivo en el consumo, pero la tasa de interés produce un 
efecto negativo. 

¿Hay que preocuparse por el problema de la multicolinealidad en este caso? Al parecer no, 
porque todos los coeficientes tienen los signos correctos, cada coeficiente es muy significativo 
estadísticamente en lo individual y el valor F también es estadísticamente muy significativo, lo 
que indica que, en conjunto, todas las variables tienen efecto significativo en el gasto de con- 
sumo. El valor R? también es muy alto. 

Por supuesto, casi siempre existe cierto grado de colinealidad entre las variables económicas. 
Con tal de que no sea exacto se pueden estimar los parámetros del modelo. Por el momento, lo 
único que se puede decir es que, en el presente ejemplo, la colinealidad, si la hay, no parece muy 
marcada. Sin embargo, en la sección 10.7 presentamos algunas pruebas de diagnóstico para 
detectar la colinealidad y reexaminar la función de consumo de Estados Unidos para determinar 
si le afecta el problema de la colinealidad. 


10.7 Detección de la multicolinealidad 


Después de estudiar las características y las consecuencias de la multicolinealidad, el interrogante 
natural es: ¿cómo conocer la presencia de colinealidad en cualquier situación dada, en especial en 
modelos con más de dos variables explicativas? Aquí es útil la advertencia de Kmenta: 


1. La multicolinealidad es una cuestión de grado y no de clase. La distinción importante no es 
entre presencia o ausencia de multicolinealidad, sino entre sus diferentes grados. 

2. Como la multicolinealidad se refiere a la condición de las variables explicativas que son no 
estocásticas por supuestos, es una característica de la muestra y no de la población. 

Por consiguiente, no es necesario “llevar a cabo pruebas sobre multicolinealidad”, pero, si se 
desea, es posible medir su grado en cualquier muestra determinada.!” 


Como la multicolinealidad es en esencia un fenómeno de tipo muestral que surge de infor- 
mación sobre todo no experimental recopilada en la mayoría de las ciencias sociales, no hay un 
método único para detectarla o medir su fuerza. Lo que se tiene en realidad son ciertas reglas 
prácticas, algunas informales y otras formales, pero todas reglas prácticas. Consideremos algu- 
nas de ellas. 


1. Una R? elevada pero pocas razones ź significativas. Como ya mencionamos, es un sín- 
toma “clásico” de multicolinealidad. Si R? es alta, es decir, está por encima de 0.8, la prueba F, 
en la mayoría de los casos, rechazará la hipótesis de que los coeficientes parciales de pendiente 
son simultáneamente iguales a cero, pero las pruebas f individuales mostrarán que ningún coefi- 
ciente parcial de pendiente, o muy pocos, son estadísticamente diferentes de cero. Demostramos 
lo anterior con claridad en el ejemplo de consumo-ingreso-riqueza. 

Aunque este diagnóstico es razonable, su desventaja es que “es demasiado fuerte, en el sen- 
tido de que la multicolinealidad se considera dañina únicamente cuando no se puede separar la 
totalidad de las influencias de las variables explicativas sobre Y”.'* 


17 Jan Kmenta, Elements of Econometrics, 2a. ed., Macmillan, Nueva York, 1986, p. 431. 
18 Ibid., p. 439. 
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2. Altas correlaciones entre parejas de regresoras. Otra regla práctica recomendable con- 
siste en observar el coeficiente de correlación de orden cero o entre dos regresoras. Si éste es 
alto, digamos, superior a 0.8, la multicolinealidad es un problema grave. La desventaja con este 
criterio es que, aunque las altas correlaciones de orden cero pueden sugerir la presencia de coli- 
nealidad, no es necesario que dichas correlaciones sean altas para tener colinealidad en un deter- 
minado caso específico. En términos un poco técnicos: las correlaciones de orden cero elevadas 
son una condición suficiente pero no necesaria para la existencia de multicolinealidad, debido 
a que puede existir a pesar de que las correlaciones de orden cero o correlaciones simples sean 
comparativamente bajas (es decir, inferiores a 0.50). Para apreciar esta relación, suponga un 
modelo con cuatro variables: 


Y; = Pı + B2X2 + B343; + PaXa¡ + ui 
y suponga que 
Xai = AX 2 + 43X3, 


donde 42 y 43 son constantes, sin ser las dos iguales a cero. Obvio, X4 es una combinación lineal 
exacta de X> y X3, que da R} ,, = 1, el coeficiente de determinación en la regresión de X4 sobre 
X> y X3. 

Ahora recordemos la fórmula (7.11.5) del capítulo 7 para escribir 


a 2 
Fáo +Y43 — 242143123 


== - (10.7.1) 
i L=, 
Pero, como R$ ,, = 1 por la existencia de colinealidad perfecta, obtenemos 
y tris — O (10.7.2) 
113; 
No es difícil ver que (10.7.2) se satisface con r42 = 0.5, r43 = 0.5 y r23 = —0.5, que no son va- 


lores muy altos. 

Por consiguiente, en los modelos donde hay más de dos variables explicativas, la correlación 
simple o de orden cero no proporciona una guía infalible sobre la presencia de multicolinealidad. 
Claro que si sólo existen dos variables explicativas, bastarán las correlaciones de orden cero. 


3. Examen de las correlaciones parciales. Debido al problema recién descrito, que se basa 
en correlaciones de orden cero, Farrar y Glauber sugieren que deben observarse, en lugar de 
ellas, los coeficientes de correlación parcial.!? De esta forma, en la regresión de Y sobre X2, X; y 
Xa, si se encuentra que R?,,4 es muy elevada pero 72, 34, 1324 Y r?423 SON comparativamente 
bajas, esto puede sugerir que las variables X2, X3 y X4 están muy intercorrelacionadas y que por 
lo menos una de estas variables es superflua. 

Si bien puede ser útil un estudio de correlaciones parciales, nada garantiza que proporcionen 
una guía infalible sobre multicolinealidad, pues puede suceder que tanto R? como todas las co- 
rrelaciones parciales sean lo bastante altas. Sin embargo, y tal vez más importante, C. Robert 
Wichers mostró?” que la prueba de correlación parcial de Farrar-Glauber es ineficaz en el sentido 


12 D.E. Farrar y R.R. Glauber, “Multicollinearity in Regression Analysis: The Problem Revisited”, Review of 
Economics and Statistics, vol. 49, 1967, pp. 92-107. 

20 “The Detection of Multicollinearity: A Comment”, Review of Economics and Statistics, vol. 57, 1975, 
pp. 365-366. 
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de que una determinada correlación parcial puede ser compatible con diferentes patrones de 
multicolinealidad. La prueba de Farrar-Glauber también recibió fuertes críticas de T. Krishna 
Kumar,?! John O”Hagan y Brendan McCabe.?? 


4. Regresiones auxiliares. Como la multicolinealidad surge porque una o más de las regre- 
soras son combinaciones lineales exactas o aproximadas de las demás regresoras, una forma 
de determinar cuál variable X está relacionada con las demás variables X es efectuar la regre- 
sión de cada X; sobre las variables X restantes y calcular la R? correspondiente, que se designa 
R?; cada una de estas regresiones se denomina regresión auxiliar, auxiliar a la regresión princi- 
pal de Y sobre las X. Así, conforme a la relación entre F y R? establecida en (8.4.11), la variable 


Rao E S 2) 


Ji = 
(1 A e O 7 k+ 1) 


(10.7.3) 


sigue la distribución F con k — 2 y n — k + 1 gl. En la ecuación (10.7.3), n representa el ta- 
maño de la muestra, k representa el número de variables explicativas incluyendo el intercepto y 
2 ara, es el coeficiente de determinación en la regresión de la variable X; sobre las variables 
X restantes. 
Si la F calculada excede a la F; crítica en el nivel de significancia seleccionado, se dice que 
la X; particular es colineal con las demás X; si no excede a la F; crítica, se dice que ésta no es 
colineal con las demás X, en cuyo caso se puede mantener la variable en el modelo. Si F; 
es estadísticamente significativa, aún hay que decidir si la X; en consideración debe eliminarse del 
modelo. Analizaremos este aspecto con más detalle en la sección 10.8. 
Sin embargo, este método no carece de desventajas, pues 


. . Si la multicolinealidad comprende sólo unas cuantas variables, de forma que las regresiones auxi- 
liares no sufran de multicolinealidad extensa, los coeficientes estimados pueden revelar la naturaleza 
de la dependencia lineal entre las regresoras. Por desgracia, si existen diversas asociaciones lineales 
complejas, este ejercicio de ajuste de curva puede no tener gran valor, pues será dificil identificar las 
interrelaciones separadas.?* 


En lugar de probar formalmente todos los valores R? auxiliares, se puede adoptar la regla 
práctica de Klein, que sugiere que la multicolinealidad puede ser un problema complicado sola- 
mente si la R? obtenida de una regresión auxiliar es mayor que la R? global, es decir, si se obtiene 
de la regresión de Y sobre todas las regresoras.? Por cierto, al igual que todas las demás reglas 
prácticas, ésta debe utilizarse con buen criterio. 


5. Valores propios e índice de condición. Mediante EViews y Stata podemos calcular los 
valores propios y el índice de condición para diagnosticar la multicolinealidad. No analizare- 
mos aquí el tema de los valores propios, pues implicaría abordar temas de álgebra matricial, fuera 


21 “Multicollinearity in Regression Analysis”, Review of Economics and Statistics, vol. 57, 1975, pp. 366-368. 
22 “Tests for the Severity of Multicollinearity in Regression Analysis: A Comment”, Review of Economics and 
Statistics, vol. 57, 1975, pp. 368-370. 

23 Por ejemplo, RŽ, se obtiene mediante la regresión de Xz; de la siguiente manera: X2; = M1 + 03 X3i + 
a4X4i + ++ akXki + ņi. 

24 George G. Judge, R. Carter Hill, William E. Griffiths, Helmut Lütkepohl y Tsoung-Chao Lee, Introduction to 
the Theory and Practice of Econometrics, john Wiley & Sons, Nueva York, 1982, p. 621. 


25 Lawrence R. Klein, An Introduction to Econometrics, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1962, 
p. 101. 
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del alcance de este libro. Sin embargo, a partir de estos valores propios puede derivarse lo que se 
conoce como número de condición k, definido como 


Valor propio máximo 


Valor propio mínimo 


y el índice de condición (IC), definido como 


C= j Valor propia PRO -KĘ 
Valor propio mínimo 


Entonces tenemos esta regla práctica: Si k está entre 100 y 1 000, existe una multicolinealidad 
que va de moderada a fuerte, mientras que si excede de 1 000, existe multicolinealidad grave. De 
otro modo, si el IC (= v=) está entre 10 y 30, hay multicolinealidad entre moderada y fuerte, y 
si excede de 30, una multicolinealidad grave. 

Para el ejemplo ilustrativo del apéndice 7A.5, el valor propio más pequeño es 3.786 y el valor 
propio más grande es 187.5269, por lo que k = 187.5269/3.786, o alrededor de 49.53. Por tanto, 
IC = y 49.53 = 7.0377. Tanto k como IC indican que no existe un problema grave de colinea- 
lidad. Por cierto, observe que un valor propio bajo (en relación con el valor propio máximo) es, 
por lo general, indicativo de dependencias casi lineales en los datos. 

Algunos autores consideran que el índice de condición es el mejor diagnóstico de multi- 
colinealidad disponible. Sin embargo, esta opinión no es muy aceptada. Así, el IC es sólo una 
regla práctica, quizá un poco más compleja. Para mayores detalles, el lector puede consultar las 
referencias.” 


6. Tolerancia y factor de inflación de la varianza. Ya vimos el FIV y la TOL. Conforme 
R; —el coeficiente de determinación en la regresión de la regresora X; sobre las regresoras res- 
tantes del modelo— se aproxima a la unidad, es decir, conforme se incrementa la colinealidad de 
X; con las demás regresoras, FIV también aumenta, y en el límite puede ser infinito. 

Algunos autores utilizan, por consiguiente, el FIV como indicador de la multicolinealidad: 
entre mayor es el valor del FIV;, mayor “problema” o colinealidad tiene la variable X;. ¿Pero, 
cuánto debe ascender el FIV antes de que una regresora se convierta en un problema? Como 
regla práctica, si el FIV de una variable es superior a 10 (esto sucede si R? excede de 0.90), se 
dice que esa variable es muy colineal.?” 

Desde luego, puede utilizarse TOL; como medida de la multicolinealidad, en vista de su estre- 
cha conexión con FIV}. Mientras más cerca esté TOL; de cero, mayor será el grado de colineali- 
dad de esa variable respecto de las demás regresoras. Por otra parte, mientras más cerca esté TOL; 
de 1, mayor será la evidencia de que X; no es colineal con las demás regresoras. 

El FIV (o tolerancia) como medida de colinealidad no está libre de crítica. Como indica 
(10.5.4), var (Bs) depende de tres factores: o?, Dr y FIV;. Un FIV alto se contrarresta por 
una 0? baja o una $ x A alta. De otra forma: un FIV alto no es condición necesaria ni suficiente 
para obtener varianzas y errores estándar altos. Por consiguiente, la alta multicolinealidad, como 
la mide un FIV alto, puede no necesariamente ocasionar errores estándar altos. En todo este aná- 
lisis, los términos alto y bajo son relativos. 


7. Diagrama de dispersión. Es una buena práctica usar un diagrama de dispersión para ver 
cómo se relacionan las diversas variables de un modelo de regresión. La figura 10.4 presenta el 


26 Véase sobre todo D.A. Belsley, E. Kuh y R.E. Welsch, Regression Diagnostics: Identifying Influential Data and 
Sources of Collinearity, john Wiley & Sons, Nueva York, 1980, capítulo 3. Sin embargo, este libro no es para 
principiantes. 

27 Véase David G. Kleinbaum, Lawrence L. Kupper y Keith E. Muller, Applied Regression Analysis and Other 
Multivariate Methods, 2a. ed., PWS-Kent, Boston, Massachusetts, 1988, p. 210. 


FIGURA 10.4 


Diagrama de dispersión 
de los datos del ejemplo 


10.2. 
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diagrama de dispersión del ejemplo de consumo analizado en la sección anterior (ejemplo 10.2). 
Se trata de un diagrama de cuatro por cuatro cuadros porque hay cuatro variables en el modelo, 
una variable dependiente (C) y tres variables explicativas: ingreso personal disponible real (Yd), 
riqueza real (W) y tasa de interés real (I). 

Primero considere la diagonal principal, de la esquina superior izquierda a la esquina inferior 
derecha. No hay puntos de dispersión en estos cuadros en la diagonal principal. Si los hubiera, 
tendrían un coeficiente de correlación de 1, pues las gráficas serían de una variable dada sobre 
sí misma. Los cuadros fuera de la diagonal muestran intercorrelaciones entre las variables. Por 
ejemplo, el cuadro de riqueza (W) muestra que la riqueza y el ingreso están muy correlacionados 
(el coeficiente de correlación entre los dos es 0.97), pero no de manera perfecta. Si tuvieran co- 
rrelación perfecta (es decir, si tuvieran un coeficiente de correlación de 1), no habríamos podido 
estimar la regresión (10.6.6) porque habría una relación lineal exacta entre riqueza e ingreso. El 
diagrama de dispersión también muestra que la tasa de interés no está muy correlacionada con 
las otras tres variables. 

Como la función de diagrama de dispersión se incluye ahora en varios programas estadísticos, 
este diagnóstico debe tomarse en consideración junto con los que estudiamos antes. No obstante, 
hay que recordar que las correlaciones simples entre parejas de variables pueden no ser un indi- 
cador definitivo de colinealidad, como ya señalamos. 


Para concluir la detección de la multicolinealidad, reiteramos que los diversos métodos 
son en esencia “expediciones de pesca”, pues no puede decirse cuáles funcionan en una aplica- 
ción particular. Sin embargo, no se puede hacer mucho al respecto, pues la multicolinealidad es 
un problema especifico de una muestra dada sobre la cual el investigador puede no tener mucho 
control, sobre todo si los datos son no experimentales por naturaleza, como es lo común para los 
investigadores de las ciencias sociales. 

Nuevamente, como una parodia de multicolinealidad, Goldberger cita diversas formas de 
detectar la micronumerosidad, como el desarrollo de valores críticos del tamaño de la muestra, 
n“, tales que la micronumerosidad es un problema sólo si el tamaño real de la muestra n es más 
pequeño que n*. Lo importante de la parodia de Goldberger es destacar que el tamaño pequeño 
de la muestra y la falta de variabilidad en las variables explicativas pueden ocasionar problemas 
por lo menos tan graves como los debidos a la multicolinealidad. 
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10.8 Medidas correctivas 


¿Qué puede hacerse si la multicolinealidad es grave? Hay dos posibilidades: 1) no hacer nada o 
2) seguir algunas reglas prácticas. 


No hacer nada 


Blanchard expresa de la siguiente manera la corriente de pensamiento que aboga por “no hacer 


nada”:?8 


Cuando los estudiantes efectúan por primera vez la regresión de mínimos cuadrados ordinarios 
(MCO), el primer problema que suelen afrontar es el de la multicolinealidad. Muchos concluyen que 
hay algo malo con los MCO; otros recurren a nuevas y con frecuencia creativas técnicas a fin de darle 
la vuelta al problema. Pero eso está mal. La multicolinealidad es la voluntad de Dios, no un problema 
con los MCO ni con la técnica estadística en general. 


Lo que Blanchard afirma es que la multicolinealidad es en esencia un problema de deficiencia 
de datos (de nuevo, micronumerosidad), y en algunas ocasiones no hay opción respecto de los 
datos disponibles para el análisis empírico. 

Asimismo, no es que todos los coeficientes en un modelo de regresión sean estadísticamente 
insignificantes. Al contrario, aunque no se puedan estimar uno o más coeficientes de regresión 
con gran precisión, es posible calcular una combinación lineal de ellos (es decir, una función es- 
timable) con relativa eficiencia. Como vimos en (10.2.3), œ se calcula de forma única, aunque no 
puedan estimarse sus dos componentes dados ahí de manera individual. Algunas veces esto es lo 
mejor que se puede hacer con un determinado conjunto de datos.?” 


Procedimientos de reglas prácticas 


Se pueden intentar las siguientes reglas prácticas para abordar el problema de la multicolineali- 
dad; el éxito depende de la gravedad de la multicolinealidad. 


1. Información a priori. Suponga que consideramos el modelo 
Y, = Bi + P2Xo; + B3X3i + ui 


donde Y = consumo, X= ingreso y X; = riqueza. Como ya mencionamos, las variables ingreso 
y riqueza tienden a ser muy colineales. Pero suponga que, a priori, creemos que $3 = 0.106); es 
decir, la tasa de cambio del consumo respecto de la riqueza es una décima parte de la correspon- 
diente respecto del ingreso. Podemos entonces efectuar la siguiente regresión: 


Y, = Bi + BaXo; + 0.10 BoX3; + Ui 
= Br + PX + ui 


donde X; = Xz; + 0.1X3;. Una vez obtenido Ê podemos estimar Ba a partir de la relación postu- 
lada entre 62y 63. 

¿Cómo obtener información a priori? Puede provenir de un trabajo empírico anterior, en 
donde el problema de colinealidad resultó ser menos grave o de la teoría relevante que soporta 


28 O.J. Blanchard, “Comment”, Journal of Business and Economic Statistics, vol. 5, 1967, pp. 449-451. La cita 
se toma de Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Massachusetts, 1998, 

p. 190. 

22 Hay un interesante análisis sobre este tema en J. Conlisk, “When Collinearity is Desirable”, Western Econo- 
mic Journal, vol. 9, 1971, pp. 393-407. 
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el campo de estudio. Por ejemplo, en la función de producción tipo Cobb-Douglas (7.9.1), si es- 
peramos que prevalezcan los rendimientos constantes a escala, entonces (B2 + 63) = 1, en cuyo 
caso podemos efectuar la regresión (8.6.14), con la regresión de la razón producto-trabajo sobre 
la razón capital-trabajo. Si existe colinealidad entre el trabajo y el capital, como suele ser el caso 
en la mayor parte de la información muestral, dicha transformación puede reducir o eliminar el 
problema de colinealidad. Pero es preciso hacer una advertencia aquí respecto de la imposición 
de esas restricciones a priori, “. . . pues en general se desean probar las predicciones a priori de la 
teoría económica en lugar de imponerlas simplemente sobre los datos para los cuales pueden no 
ser válidas”.2% Sin embargo, sabemos, de la sección 8.6, cómo probar explícitamente la validez 
de tales restricciones. 


2. Combinación de información de corte transversal y de series de tiempo. Una variante 
de la técnica de información externa o a priori es la combinación de datos de corte transversal 
y de series de tiempo, conocida como mezcla de datos. Suponga que deseamos estudiar la de- 
manda de automóviles en Estados Unidos y que tenemos información de series de tiempo sobre 
el número de automóviles vendidos, su precio promedio y el ingreso del consumidor. Además, 
suponga que 


In Y, = bı + 21n P, + B31n 1, + u 


donde Y = número de automóviles vendidos, P = precio promedio, I = ingreso y t = tiempo. El 
objetivo es estimar la elasticidad precio £z y la elasticidad ingreso 63. 

En la información de series de tiempo, las variables precio e ingreso tienden a ser muy colinea- 
les. Por consiguiente, si deseamos efectuar la anterior regresión, debemos enfrentar el problema 
usual de multicolinealidad. Tobin sugiere una salida a esto.3! Sostiene que si hay información 
de corte transversal (por ejemplo, información generada a través de paneles de consumidores 
o estudios sindicados realizados por varias agencias privadas y estatales), puede obtenerse una 
estimación relativamente confiable de la elasticidad ingreso £3, pues, con tal información, que 
está en un punto en el tiempo, los precios no varían mucho. Sea £; la elasticidad ingreso estimada 
a partir de los datos de corte transversal. Con esta estimación, la anterior regresión de series de 
tiempo se escribe como 


Y? = Pi + f21nP, + u: 


donde Y* = In Y — Ba In Z, es decir, Y * representa ese valor de Y después de eliminarle el efecto 
del ingreso. Ahora se puede obtener una estimación de la elasticidad precio $, de la regresión 
anterior. 

Aunque es una técnica atractiva, la mezcla de datos de series de tiempo y de corte transversal 
de esta forma puede crear problemas de interpretación porque se supone implícitamente que la 
elasticidad ingreso estimada a partir de datos de corte transversal es igual a la que se habría obte- 
nido a partir de un análisis puro de series de tiempo.*? Sin embargo, se ha empleado esta técnica 
en muchas aplicaciones y es en particular valiosa en situaciones en donde las estimaciones de 
corte transversal no varían sustancialmente de una sección transversal a otra. Un ejemplo de esta 
técnica se encuentra en el ejercicio 10.26. 


3. Eliminación de una(s) variable(s) y el sesgo de especificación. Al enfrentar el problema 
de multicolinealidad grave, una de las soluciones “más simples” consiste en omitir del modelo 


30 Mark B. Stewart y Kenneth F. Wallis, Introductory Econometrics, 2a. ed., John Wiley & Sons, A Halstead 
Press Book, Nueva York, 1981, p. 154. 

31]. Tobin, “A Statistical Demand Function for Food in the U.S.A.”, Journal of the Royal Statistical Society, 

Ser. A, 1950, pp. 113-141. 

32 Hay un análisis completo y una aplicación de la técnica de datos combinados en Edwin Kuh, Capital Stock 
Growth: A Micro-Econometric Approach, North-Holland Publishing Company, Ámsterdam, 1963, capítulos 5 
y 6. 
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una de las variables colineales. Así, en el ejemplo consumo-ingreso-riqueza, al omitir la variable 
riqueza, obtenemos la regresión (10.6.4), la cual muestra que mientras en el modelo original la 
variable ingreso no era estadísticamente significativa, ahora se vuelve “altamente” significativa. 

Sin embargo, al eliminar una variable del modelo se puede incurrir en un sesgo de especifica- 
ción o error de especificación. El sesgo de especificación surge de la especificación incorrecta 
del modelo utilizado en el análisis. Así, si la teoría económica afirma que tanto el ingreso como 
la riqueza deben incluirse en el modelo que explica el gasto de consumo, al eliminar la variable 
riqueza se incurriría en un sesgo de especificación. 

Aunque estudiaremos el tema del sesgo de especificación en el capítulo 13, recuerde la idea 
general sobre éste dada en la sección 7.7. Si el modelo verdadero es 


Y, = Bi + B2X2 + 3X3; + u; 
pero se ajusta de manera errónea el modelo 
Y; =b1+b1X3 + ûi (10.8.1) 
se demuestra que (véase el apéndice 13A.1) 
E(b12) = B2 + B3b32 (10.8.2) 


donde b32 = coeficiente de la pendiente en la regresión de A3 sobre X2. Por consiguiente, es 
obvio de (10.8.2) que 52 será una estimación sesgada de £2 en la medida en que b32 sea diferente 
de cero (se supone que $3 es diferente de cero; en caso contrario, no tendría sentido incluir X3 
en el modelo original).33 Claro está que si b32 fuera cero, para empezar no habría problema de 
multicolinealidad. También es claro de (10.8.2) que si b32 y 3 son positivas (o ambas negativas), 
E(b2) será mayor que 82; por tanto, en promedio, b12 sobreestimará a £2, para ocasionar un sesgo 
positivo. De la misma forma, si el producto b3283 es negativo, en promedio, b,2 subestimará a f2, 
para ocasionar un sesgo negativo. 

Del análisis anterior, es claro que eliminar una variable del modelo para resolver el problema 
de la multicolinealidad puede producir un sesgo de especificación. Por tanto, el remedio suele ser 
peor que la enfermedad en algunas situaciones porque, mientras que la multicolinealidad puede 
obstaculizar la estimación precisa de los parámetros del modelo, la omisión de una variable gene- 
raría graves equivocaciones respecto de los verdaderos valores de los parámetros. Recuerde que 
los estimadores de MCO son MELI a pesar de la presencia de multicolinealidad perfecta. 


4. Transformación de variables. Suponga que tenemos información de series de tiempo 
sobre el gasto de consumo, el ingreso y la riqueza. Una razón de la alta multicolinealidad entre 
el ingreso y la riqueza en tal información es que, con el tiempo, las dos variables tienden a mo- 
verse en la misma dirección. Una forma de reducir esta dependencia es proceder de la siguiente 
manera. 

Si la relación 


Y, = Bi + P2X2, + B3X3, + u: (10.8.3) 


se cumple en el periodo £, también debe cumplirse en el periodo t — 1, pues el origen del tiempo 
es, de todas formas, arbitrario. Por consiguiente, tenemos que: 


Y; = bi + Box 1 + BX t1 + 1 (10.8.4) 
Si restamos (10.8.4) de (10.8.3) obtenemos 
Y, — Y 1 = P(X — 211) + Pal Az, — A3,11) + Vo (10.8.5) 


33 Además, observe que si b32 no se acerca a cero a medida que el tamaño de la muestra aumenta indefini- 
damente, entonces b; 2 no sólo será sesgado, sino también inconsistente. 
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donde v; = u; — u;_¡. La ecuación (10.8.5) se conoce como la forma en primeras diferencias 
porque no se hace la regresión sobre las variables originales, sino sobre las diferencias de los 
valores sucesivos de dichas variables. 

El modelo de regresión que utiliza primeras diferencias a menudo reduce la gravedad de la 
multicolinealidad porque, aunque los niveles de X, y X; estén muy correlacionados, no hay razón 
a priori para pensar que sus diferencias también lo están. 

Como veremos en los capítulos que estudian la econometría de las series de tiempo, una 
ventaja incidental de la transformación de primeras diferencias consiste en que puede hacer que 
una serie de tiempo no estacionaria se convierta en estacionaria. En dichos capítulos veremos la 
importancia de las series de tiempo estacionarias. Como apreciamos en el capítulo 1, de manera 
muy general, una serie de tiempo, por ejemplo Y, es estacionaria si su media y varianza no cam- 
bian de manera sistemática a través del tiempo. 

Otra transformación común en la práctica es la transformación de razón. Considere el si- 
guiente modelo: 


Y, = Pi + P2Xy + B3X3, + ur (10.8.6) 


donde Y es el gasto de consumo en dólares reales, X) es el PIB y X; es la población total. Como 
el PIB y la población aumentan con el tiempo, es muy probable que estén correlacionados. Una 
“solución” a este problema consiste en expresar el modelo mediante una base per cápita; es decir, 
dividir (10.8.4) entre X3 para obtener: 


Y, 1 Xar Us 
Esh (=) +h (E) ++ (5) (10.8.7) 


Dicha transformación tal vez reduzca la colinealidad en las variables originales. 

Sin embargo, la transformación que utiliza primeras diferencias o las transformaciones de 
razón crean otros problemas. Por ejemplo, el término de error v; que aparece en (10.8.5) puede no 
satisfacer un supuesto del modelo clásico de regresión lineal, a saber, que las perturbaciones 
no están serialmente correlacionadas. Como veremos en el capítulo 12, si el término de perturba- 
ción u, original no está serialmente correlacionado, el término de error v, obtenido antes estará, 
en la mayoría de los casos, serialmente correlacionado. De nuevo, el remedio puede ser peor que 
la enfermedad. Además, se pierde una observación debido al procedimiento de diferenciación y, 
por consiguiente, los grados de libertad se reducen en 1. En una muestra pequeña esto puede ser 
un factor que al menos se debe considerar. Por añadidura, el procedimiento de primeras diferen- 
cias puede no ser el adecuado en los datos de corte transversal, donde no hay un ordenamiento 
lógico de las observaciones. 

Del mismo modo, en el modelo de la razón (10.8.7), el término de error 


( U ) 
Xy 


será heteroscedástico, si el término de error original u, es homoscedástico, como veremos en el 
capítulo 11. Una vez más, el remedio quizá resulte peor que la enfermedad de la colinealidad. 

En resumen, se debe tener cuidado con las primeras diferencias o el método de la razón para 
transformar los datos a fin de resolver el problema de la multicolinealidad. 


5. Datos nuevos o adicionales. Como la multicolinealidad es una característica de la mues- 
tra, es posible que en otra muestra con las mismas variables la colinealidad no sea tan grave como 
en la primera. A veces, con sólo aumentar el tamaño de la muestra (si esto es posible) se atenúa 
el problema de colinealidad. Por ejemplo, en el modelo de tres variables vimos que: 


2 


A o 
var (2) = SE — r2,) 


346 


Parte Dos Flexibilización de los supuestos del modelo clásico 


Ahora, a medida que aumenta el tamaño de la muestra, X` x2, por lo general aumenta. (¿Por 
qué?) Por consiguiente, para cualquier r23 dado, la varianza de 2 disminuirá, para reducir el 
error estándar, lo cual permite estimar $6, de manera más precisa. 

Como ejemplo, considere la siguiente regresión del gasto de consumo Y sobre el ingreso X y 
la riqueza X; basada en 10 observaciones.** 


Y, = 24.377 + 0.8716X>;—  0.0349X3; 


(10.8.8) 
t = (3.875) (2.7726)  (-1.1595) R? = 0.9682 


El coeficiente de la riqueza en esta regresión no sólo tiene el signo equivocado, sino que estadísti- 
camente no es significativo en el nivel de 5%. Pero cuando el tamaño de la muestra se incrementó 
a 40 observaciones (¿micronumerosidad?) se obtuvieron los siguientes resultados: 


Y, = 2.0907 + 0.7299X>; + 0.0605Xy 


(10.8.9) 
t =(0.8713) (6.0014) (2.0014) R? = 0.9672 


Ahora el coeficiente de la riqueza no sólo tiene el signo correcto, sino que es estadísticamente 
significativo en el nivel de 5%. 

La obtención de datos adicionales o “mejores” no siempre es tan sencilla, pues, como men- 
cionan Judge et al.: 


Por desgracia, muy pocas veces pueden los economistas obtener información adicional sin incurrir en 
altos costos, y mucho menos pueden seleccionar los valores de las variables explicativas que desean. 
Además, al agregar variables en situaciones no controladas, se debe tener cuidado de no agregar 
observaciones generadas en un proceso diferente del asociado al conjunto original de datos; es decir, 
se debe estar seguro de que la estructura económica asociada a las nuevas observaciones sea igual a 
la estructura original.’ 


6. Reducción de la colinealidad en las regresiones polinomiales. En la sección 7.10 estu- 
diamos los modelos de regresión polinomial. Una característica especial de estos modelos es que 
la(s) variable(s) explicativa(s) aparece(n) elevada(s) a diversas potencias. Por tanto, en la función 
cúbica de costos totales que implica la regresión del costo total sobre la producción, la (produc- 
ción)? y la (producción)?, como en (7.10.4), los diversos términos de la producción van a estar 
correlacionados, lo que dificulta la estimación precisa de los diversos coeficientes de pendiente.*% 
No obstante, en la práctica se ha visto que si la(s) variable(s) explicativa(s) está(n) expresada(s) 
en forma de desviación (es decir, desviaciones del valor medio), la multicolinealidad se reduce 
sustancialmente. Pero, aun entonces, el problema puede persistir,?” en cuyo caso tal vez convenga 
considerar técnicas como la de los polinomios ortogonales.?* 


7. Otros métodos de remediar la multicolinealidad. Las técnicas estadísticas multivariadas 
como el análisis de factores y el de componentes principales, o como la regresión en cadena, 
son comunes para “resolver” el problema de la multicolinealidad. Desafortunadamente, estas 
técnicas están fuera del alcance de este libro, pues no pueden analizarse en forma competente sin 
recurrir al álgebra matricial.*? 


34 El autor agradece a Albert Zucker la obtención de los resultados de las siguientes regresiones. 

35 Judge et al., op. cit., p. 625. Véase también la sección 10.9. 

36 Como ya mencionamos, puesto que la relación entre X, X? y X? es no lineal, las regresiones polinomiales 
no violan el supuesto de no multicolinealidad del modelo clásico, en estricto sentido. 

37 Véase R.A. Bradley y S.S. Srivastava, “Correlation and Polynomial Regression”, American Statistician, 

vol. 33, 1979, pp. 11-14. 

38 Véase Norman Draper y Harry Smith, Applied Regression Analysis, 2a. ed., John Wiley & Sons, Nueva York, 
1981, pp. 266-274. 

3? Una explicación sencilla de estas técnicas, desde un punto de vista aplicado, se encuentra en Samprit 
Chatterjee y Bertram Price, Regression Analysis by Example, John Wiley & Sons, Nueva York, 1977, capítulos 
7 y 8. Véase también H.D. Vinod, “A Survey of Ridge Regression and Related Techniques for Improvements 
over Ordinary Least Squares”, Review of Economics and Statistics, vol. 60, febrero de 1978, pp. 121-131. 
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10.9 ¿Es la multicolinealidad necesariamente mala? 
Quizá no, si el objetivo es sólo la predicción 


Dijimos que si el único propósito del análisis de regresión es el pronóstico o la predicción, la 
multicolinealidad no es un problema grave, pues, entre más alta sea la R?, mejor será la predic- 
ción.“ Pero esto sucede “... siempre que los valores de las variables explicativas, para los cuales 
se desean las predicciones, obedezcan las mismas dependencias lineales casi exactas de la matriz 
X [de datos] del diseño original”.*! Por tanto, si en una regresión estimada se encuentra que 
X> = 2X; aproximadamente, entonces, en una muestra futura para pronosticar Y, X también debe 
ser aproximadamente igual a 2X3, condición difícil de cumplir en la práctica (véase la nota 35), 
en cuyo caso la predicción será cada vez más incierta.“ Más aún, si el objetivo del análisis no es 
sólo la predicción sino también la estimación confiable de los parámetros, la presencia de una alta 
multicolinealidad puede ser un problema porque, como vimos, genera grandes errores estándar 
en los estimadores. 

Sin embargo, existen situaciones en las cuales la multicolinealidad puede no representar un 
problema grave. Es el caso en el cual se tiene una R? elevada y los coeficientes de regresión son 
significativos individualmente como lo demuestran los altos valores f. Aun así, los diagnósticos 
de multicolinealidad, por ejemplo el índice de condición, indican que los datos presentan colinea- 
lidad grave. ¿Cuándo puede presentarse tal situación? Como menciona Johnston: 


Esto sucede si los coeficientes individuales resultan estar numéricamente muy por encima del valor 
verdadero, de forma que el efecto siga visible, a pesar de los errores estándar inflados y/o debido a 
que el valor verdadero es en sí mismo tan grande que, aunque se obtenga una estimación subesti- 
mada, continúe siendo significativa. $ 


10.10 Ejemplo ampliado: los datos Longley 


Concluimos este capítulo con el análisis de los datos recopilados por Longley.** Aunque se obtu- 
vieron originalmente para evaluar la exactitud del cálculo computacional de las estimaciones de 
mínimos cuadrados de varios paquetes de software, los datos Longley se convirtieron en ejemplo 
para ilustrar diversos problemas econométricos, como la multicolinealidad. Los datos se repro- 
ducen en la tabla 10,8, y son series de tiempo de 1947 a 1962, donde Y = número de personas 
con trabajo (en miles), X; = índice implícito de deflación de precios para el PIB, X2 = PIB (en 
millones de dólares), X3 = número de desempleados (en miles), X4 = número de personas enlis- 
tadas en las fuerzas armadas, X5 = población no institucionalizada mayor de 14 años de edad y 
X6 = año (igual a 1 para 1947, 2 para 1948 y 16 para 1962). 


40 Véase R.C. Geary, “Some Results about Relations Between Stochastic Variables: A Discussion Document”, 
Review of International Statistical Institute, vol. 31, 1963, pp. 163-181. 

41 Judge et al., op. cit., p. 619. También encontrará en esta página la prueba de que, a pesar de la colineali- 
dad, se obtienen mejores predicciones medias si la estructura de colinealidad existente también persiste en 
las muestras futuras. 

42 Para un excelente análisis véase E. Malinvaud, Statistical Methods of Econometrics, 2a. ed., North-Holland 
Publishing Company, Ámsterdam, 1970, pp. 220-221. 

43]. Johnston, Econometric Methods, 3a. ed., McGraw-Hill, Nueva York, 1984, p. 249. 

44]. Longley, “An Appraisal of Least-Squares Programs from the Point of User”, Journal of the American Statis- 
tical Association, vol. 62, 1967, pp. 819-841. 
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TABLA 10.8 


Datos Toneks Observación Y Xı X2 X3 X4 Xs Tiempo 
1947 60 323 830 234 289 2 356 1590 107 608 1 
Fuente: J. Longley, “An Appraisal 1948 61 122 885 259 426 2325 1 456 108 632 2 
poco me cds denia i 1949 60 171 882 258054 3682 1616 109773 3 
E A N 1950 61 187 895 284599 3351 1650 110929 4 
tion, vol. 62, 1967, pp. 819-841. 1951 63 221 962 328 975 2 099 3 099 112 075 5 
1952 63 639 981 346 999 1932 3 594 113 270 6 
1953 64 989 990 365 385 1870 3 547 115 094 7 
1954 63 761 1000 363112 3 578 3 350 116 219 8 
1955 66 019 1012 397 469 2 904 3 048 117 388 9 
1956 67 857 1 046 419 180 2 822 2 857 118 734 10 
1957 68 169 1 084 442 769 2 936 2 798 120 445 11 
1958 66 513 1108 444 546 4 681 2 637 121 950 12 
1959 68 655 1126 482 704 3 813 2 552 123 366 13 
1960 69 564 1142 502 601 3 931 2 514 125 368 14 
1961 69 331 1157 518 173 4 806 2 572 127 852 15 
1962 70 551 1169 554 894 4 007 2 827 130 081 16 


Suponga que nuestro objetivo es predecir Y con base en las seis variables X. Mediante el soft- 
ware EViewsó obtenemos los siguientes resultados de la regresión: 


Variable dependiente: Y 
Muestra: 1947-1962 


Variable Coeficiente Error estándar Estadístico t Probabilidad 
E -3482259. 890420.4 -3.910803 0.0036 
Xi 15.06187 84.91493 0.177376 0.8631 
X2 -0.035819 0.033491 -1.069516 0.3127 
X3 -2.020230 0.488400 -4.136427 0.0025 
Xa -1.033227 0.214274 -4.821985 0.0009 
Xs -0.051104 0.226073 0220051 0.8262 
X6 1829.151 455.4785 4.015890 0.0030 
R cuadrada 0.995479 Media de la variable dependiente 65317.00 
R cuadrada ajustada 0.992465 Desviación estándar de la 
Error estándar de la regresión 304.8541 variable dependiente 3511.968 
Suma de cuadrados residual 836424.1 Criterio de información de Akaike 14.57718 
Log verosimilitud -109.6174 Criterio de Schwarz 14.91519 
Estadístico de Durbin-Watson 2.559488 Estadístico F 330.2853 
Probabilidad (estadístico F) 0.000000 


A primera vista, dichos resultados sugieren que se tiene un problema de colinealidad, pues el 
valor R? es muy alto; sin embargo, unas cuantas variables son estadísticamente no significativas 
(Xi, X2 y X5), lo cual constituye un síntoma característico de multicolinealidad. Para arrojar más 
luz a este problema, en la tabla 10.9 se presentan las intercorrelaciones entre las seis regresoras. 

Esta tabla suministra lo que se llama matriz de correlación. En la tabla, las entradas de la 
diagonal principal (las que van desde la esquina superior izquierda hacia la esquina inferior de- 
recha) suministran la correlación de una variable consigo misma, la cual por definición siempre 
es 1; además, las entradas fuera de la diagonal principal son las parejas de correlaciones entre las 
variables X. El primer renglón de esta tabla proporciona la correlación de X con las otras varia- 


TABLA 10.9 


Intercorrelaciones 


TABLA 10.10 
Valores R? obtenidos de 
regresiones auxiliares 


Capítulo 10 Multicolinealidad: ¿qué pasa si las regresoras están correlacionadas? 349 


X X2 X3 X4 Xs Xe 

Xı 1.000000 0.991589 0.620633 0.464744 0.979163 0.991149 
X2 0.991589 1.000000 0.604261 0.446437 0.991090 0.995273 
X3 0.620633 0.604261 1.000000 -0.177421 0.686552 0.668257 
X4 0.464744 0.446437 -0.177421 1.000000 0.364416 0.417245 


Xs 0.979163 0.991090 0.686552 0.364416 1.000000 0.993953 
X6 0.991149 0.995273 0.668257 0.417245 0.993953 1.000000 


bles X. Por ejemplo, 0.991589 es la correlación entre X y X2; 0.620633 es la correlación entre X; 
y X3, y así sucesivamente. 

Como se ve, varias de estas correlaciones a pares son muy altas, lo cual sugiere que quizá 
haya un grave problema de colinealidad. Por supuesto, debe recordarse la advertencia anterior de 
que tales correlaciones a pares tal vez sean una condición suficiente, pero no necesaria, para la 
multicolinealidad. 

Con objeto de aclarar más la naturaleza del problema de la multicolinealidad, observe las re- 
gresiones auxiliares; es decir, la regresión de cada variable X sobre las restantes variables X. Para 
ahorrar espacio, se presentarán sólo los valores R? obtenidos con base en esas regresiones, las 
cuales se listan en la tabla 10.10. Como los valores R? de las regresiones auxiliares son muy altos 
(con la posible excepción de la regresión de X4) sobre las restantes variables X, al parecer existe 
un grave problema de colinealidad. La misma información se obtiene a partir de los factores 
de tolerancia. Como ya mencionamos, mientras más cercano a cero esté el factor de tolerancia, 
mayor será la evidencia de colinealidad. 

Al aplicar la regla práctica de Klein observamos que los valores R? obtenidos de las regresio- 
nes auxiliares exceden el valor general R? (es decir, el que se obtuvo de la regresión de Y sobre 
todas las variables X), que es igual a 0.9954, en 3 de 6 regresiones auxiliares, lo cual de nuevo 
sugiere que sin duda los datos Longley están plagados del problema de multicolinealidad. A 
propósito, si aplica la prueba F dada en (10.7.3), el lector debe verificar que todos los valores R? 
dados en las tablas anteriores son estadística y significativamente diferentes de cero. 

Ya observamos que los estimadores de MCO y sus errores estándar son sensibles a los peque- 
ños cambios en los datos. En el ejercicio 10.32 se pide al lector que vuelva a efectuar la regresión 
de Y sobre cada una de las seis variables X, pero que elimine las últimas observaciones; es decir, 
que haga la regresión para el periodo 1947-1961. Verá cómo cambian los resultados de la regre- 
sión al eliminar las observaciones de un solo año. 

Ahora que establecimos que existe un problema de multicolinealidad, ¿qué acciones correc- 
tivas pueden llevarse a cabo? Reconsidere el modelo original. En primer lugar, el PIB puede 
expresarse no en términos nominales, sino en términos reales, lo cual se realiza al dividir el PIB 
nominal entre el índice de deflación del precio implícito. En segundo lugar, en vista de que la 
población no institucional mayor de 14 años aumenta con el tiempo debido al crecimiento natural 
de la población, estará muy correlacionada con el tiempo, la variable X¿ del modelo. Por tanto, 
en lugar de conservar esas dos variables, mantenemos la variable X5; y desechamos X6. En tercer 


Variable dependiente Valor de R? Tolerancia (TOL) = 1 — R? 


X1 0.9926 0.0074 
X2 0.9994 0.0006 
X3 0.9702 0.0298 
Xa 0.7213 0.2787 
Xs 0.9970 0.0030 


X6 0.9986 0.0014 
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lugar, no hay ninguna razón de peso para incluir X3, el número de personas desempleadas; quizá 
la tasa de desempleo fuese una mejor medida de las condiciones del mercado de trabajo; sin 
embargo, no hay ningún dato al respecto. Por consiguiente, eliminamos la variable X3. Con estos 
cambios obtenemos los siguientes resultados de la regresión (PIBR = PIB real):* 


Variable dependiente: Y 


Muestra: 1947-1962 


Variable Coeficiente Error estándar Estadístico t Probabilidad 
C 65720.37 10624.81 6.185558 0.0000 
PIBR 9.736496 1-791552 5.434671 0.0002 
Xa -0.687966 0.322238 -2.134965 0.0541 
Xs -0.299537 0.141761 -2.112965 0.0562 
R cuadrada 0.981404 Media de la variable dependiente 65317.00 
R cuadrada ajustada 0.976755 Desviación estándar de la 
Error estándar de la regresión 534.4492 variable dependiente 3511.968 
Suma de cuadrados residual 3440470. Criterio de información de Akaike 15.61641 
Log verosimilitud -120.9313 Criterio de Schwarz 15.80955 
Estadístico de Durbin-Watson 1.654069 Estadístico F 211.0972 
Probabilidad (estadístico F) 0.000000 


Aunque R? disminuyó un poco en comparación con la R? original, aún es muy alta. Ahora todos 
los coeficientes estimados son significativos y sus signos tienen sentido desde el punto de vista 
económico. 

Dejamos al lector encontrar otros modelos y observar la forma en que cambian los resultados. 
También tenga en cuenta la advertencia anterior respecto de la utilización del método de la razón 
para transformar los datos con el objeto de resolver el problema de la colinealidad. Volveremos 
a esta cuestión en el capítulo 11. 


Resumen y 
conclusiones 


1. Un supuesto del modelo clásico de regresión lineal es que no haya multicolinealidad entre las 
variables explicativas, las X. Interpretada en términos generales, la multicolinealidad se refiere 
a una situación en la cual existe una relación lineal exacta o aproximadamente exacta entre las 
variables X. 


2. Las consecuencias de la multicolinealidad son las siguientes: si existe colinealidad perfecta 
entre las X, sus coeficientes de regresión son indeterminados y sus errores estándar no están 
definidos. Si la colinealidad es alta pero no perfecta, es posible la estimación de los coeficien- 
tes de regresión, pero sus errores estándar tienden a ser grandes. Como resultado, los valores 
poblacionales de los coeficientes no pueden estimarse en forma precisa; sin embargo, si el 
objetivo es estimar combinaciones lineales de estos coeficientes, las funciones estimables, esto 
se logra aun en presencia de multicolinealidad perfecta. 


3. Aunque no hay métodos seguros para detectar la colinealidad, existen diversos indicadores, 
como los siguientes: 
a) El signo más claro de multicolinealidad es cuando R? es muy alta pero ninguno de los 
coeficientes de regresión es estadísticamente significativo con base en la prueba t conven- 
cional. Este caso es, por supuesto, extremo. 


45 El coeficiente de correlación entre Xs y X6 es de casi 0.9939, una correlación muy alta en verdad. 
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b) En los modelos con apenas dos variables explicativas, puede tenerse una idea relativamente 
buena de la colinealidad mediante el examen del coeficiente de correlación de orden cero, 
o simple, entre las dos variables. Si esta correlación es alta, la multicolinealidad suele ser 
la culpable. 


c) Sin embargo, los coeficientes de correlación de orden cero pueden ser malos indicadores 
en modelos con más de dos variables X, pues es posible tener correlaciones bajas de orden 
cero y encontrar aún alta multicolinealidad. En estas situaciones puede ser necesario exa- 
minar los coeficientes de correlación parcial. 


d) Si R? es alta pero las correlaciones parciales son bajas, la multicolinealidad es una posi- 
bilidad. Aquí hay una o más variables que pueden ser superfluas. Pero si R? es alta y las 
correlaciones parciales también son altas, la multicolinealidad puede no ser fácilmente 
detectable. También, como señalan C. Robert Wichers, Krishna Kumar, John O”Hagan y 
Brendan McCabe, hay algunos problemas estadísticos con la prueba de correlación parcial 
sugerida por Farrar y Glauber. 

e) Por consiguiente, se puede hacer la regresión de cada variable X; sobre las variables X 
restantes en el modelo y encontrar los coeficientes de determinación correspondientes 
R?. Una R? elevada sugeriría que X; está muy correlacionado con el resto de las X. Así, 
se puede eliminar esa X; del modelo siempre y cuando no conduzca a un sesgo de especi- 
ficación grave. 

4. La detección de multicolinealidad es la mitad de la batalla. La otra mitad es hallar la forma de 
deshacerse del problema. Nuevamente, no existen métodos seguros, sólo unas cuantas reglas 
prácticas, algunas de las cuales son las siguientes: 1) utilizar información obtenida a priori 
o externa al modelo, 2) combinar información de corte transversal y de series de tiempo, 
3) omitir una variable si es muy colineal, 4) transformar los datos y 5) obtener datos adiciona- 
les o nuevos. Naturalmente, saber qué regla funciona en la práctica depende de la naturaleza 
de la información y de la gravedad del problema de colinealidad. 


5. Mencionamos el papel de la multicolinealidad en la predicción y señalamos que, a menos que 
la estructura colineal continúe en muestras futuras, es peligroso utilizar para fines de proyec- 
ción una regresión estimada que haya sido contaminada por la multicolinealidad. 

6. Aunque la multicolinealidad ha recibido extensa (algunos dirían excesiva) atención en la 
teoría, un problema igualmente importante en la investigación empírica es el de la micro- 
numerosidad, o pequeñez del tamaño de la muestra. De acuerdo con Goldberger: “Cuando 
un artículo de investigación acusa la presencia de multicolinealidad, los lectores deben ver 
si esa queja sería convincente si se sustituyera el concepto de “micronumerosidad” por el de 
“multicolinealidad” ”.** Él sugiere que el lector es quien debe decidir cuán pequeña puede ser 
n, el número de observaciones, antes de concluir que se tiene un problema de muestra pe- 
queña, de la misma forma que decide cuán alto es un valor de R? en una regresión auxiliar 
antes de declarar que el problema de colinealidad es muy grave. 


EJERCICIOS Preguntas 


10.1. En el modelo de regresión lineal de k variables, hay k ecuaciones normales para estimar 
las k incógnitas. Estas ecuaciones normales están dadas en el apéndice C. Suponga que 
Xy es una combinación lineal perfecta de las variables X restantes. ¿Cómo se demostraría 
que en este caso es imposible estimar los k coeficientes de regresión? 


46 Goldberger, op. cit., p. 250. 
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TABLA 10.11 7 a T 
=10 1 1 
= 2 3 
=6 3 5 
—4 4 Y 
=2 5 9 
0 6 11 

2 7 13 

4 8 15 

6 9 17 

8 10 19 
10 11 21 


10.2. Considere el conjunto de datos hipotéticos de la tabla 10.11. Suponga que desea ajustar 
el modelo 


Y = fi F Aa F (06 0% 


a los datos. 
a) ¿Puede estimar las tres incógnitas? ¿Por qué? 


b) Si no se puede hacer, ¿qué funciones lineales de estos parámetros, las funciones esti- 
mables, puede estimar? Muestre los cálculos necesarios. 


10.3. Consulte el ejemplo de la mortalidad infantil analizado en el capítulo 8 (ejemplo 8.1). 
Dicho ejemplo implicó hacer la regresión de la tasa de mortalidad infantil (MI) sobre el 
PIB per cápita (PIBPC) y la tasa de alfabetización de las mujeres (TAM). Ahora, suponga 
que añadimos la variable tasa de fecundidad total (TFT). Lo anterior da los siguientes 
resultados de la regresión: 


Variable dependiente: MI 


Variable Coeficiente Error estándar Estadístico E Probabilidad 
E 168.2306:7 32.99165 5. L17003 0.0000 
PIBPC -=0 -005511 0001878 =2. 934275 0.0477 
TAM =1., 768029 0.248017 =7.128663 0.0000 
DET: 12.86864 4.190533 3-070883 00032 
R cuadrada 0.747372 Media de la variable dependiente 141.5000 
R cuadrada ajustada 0.734740 Desviación estándar de la 
Error estándar de la regresión 39, 13127 variable dependiente 1597807 
Suma de cuadrados residual 91875.38 Criterio de información de Akaike 10. 23218 
Log verosimilitud -323.4298 Criterio de Schwarz 10.36711 
Estadístico de Durbin-Watson 2 MODE Estadístico F 59.16767 
Probabilidad (estadístico F) 0.000000 


a) Compare estos resultados de la regresión con los obtenidos en la ecuación (8.1.4). 
¿Qué cambios observa? ¿Cómo los explica? 

b) ¿Vale la pena añadir la variable TFT al modelo? ¿Por qué? 

c) Como todos los coeficientes £ individuales son estadísticamente significativos, ¿pode- 
mos decir que no existe un problema de colinealidad en el presente caso? 


10.4. Si la relación 1/A1; + 124%; + 4343; = 0 se mantiene para todos los valores de 41, A2 y 
ha, estime 7123, 113.2 y 123.1. Encuentre también R?,3, R213 y R$ ¡> ¿Cuál es el grado de 


10.5. 


10.6. 


10.7. 


10.8. 


10.9. 


10.10. 
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multicolinealidad en esta situación? Nota: R?,, es el coeficiente de determinación en la 
regresión de Y sobre X, y X3. Otros valores R? deben interpretarse en forma similar. 


Considere el siguiente modelo: 


Y, =P1 + B2X,+ B3X1-1 + PaXto + BsXi-3 + PoX 14 + us 


donde Y = consumo, X = ingreso y t = tiempo. El modelo anterior postula que el gasto 
de consumo en el tiempo £ es función no sólo del ingreso en el tiempo t, sino también del 
ingreso en periodos anteriores. Por tanto, el gasto de consumo en el primer trimestre 
de 2000 es función del ingreso en ese trimestre y en los cuatro trimestres de 1999. Tales 
modelos se denominan modelos de rezago distribuido y los veremos en un capítulo 
posterior. 


a) ¿Esperaría multicolinealidad en tales modelos y por qué? 
b) Si espera colinealidad, ¿cómo resolvería el problema? 


Considere el ejemplo ilustrativo de la sección 10.6 (ejemplo 10.1). ¿Cómo interpretaría 
la diferencia en la propensión marginal a consumir obtenida de (10.6.1) y (10.6.4)? 


En los datos que comprenden series de tiempo económicas, como PNB, oferta monetaria, 
precios, ingreso, desempleo, etc., suele sospecharse la presencia de multicolinealidad. 
¿Por qué? 


Suponga en el modelo 
Y, = pı + B2X0; + B3X3; + ui 


que 723, el coeficiente de correlación entre X y X3, es cero. Por consiguiente, le sugie- 
ren que efectúe las siguientes regresiones: 


Y, =01 +07X) +1; 
Y, = yı + 343; + ua; 


a) ¿Será 47 = Ba y P = fs? ¿Por qué? 

b) ¿Será $; igual á o Y, o a alguna combinación de éstos? 

c) ¿Será var (ĝ2) = var(G,) y var (Ês) = var (9)? 

Consulte el ejemplo ilustrativo del capítulo 7, en el cual ajustamos la función de produc- 
ción Cobb-Douglas al sector manufacturero de los 50 estados y el Distrito de Columbia 
de Estados Unidos para 2005. Los resultados de la regresión dados en (7.9.4) muestran 


que los coeficientes del trabajo y del capital son estadísticamente significativos en lo in- 
dividual. 


a) Examine si las variables trabajo y capital están muy correlacionadas. 

b) Si la respuesta a a) es afirmativa, ¿eliminaría, por ejemplo, la variable trabajo del 
modelo y efectuaria la regresión de la variable producción sobre el insumo capital 
solamente? 

c) Si hace lo anterior, ¿en qué clase de sesgo de especificación se incurre? Descubra la 
naturaleza de este sesgo. 


Consulte el ejemplo 7.4. Para este problema, la matriz de correlación es la siguiente: 


Xi X K 
Xi 1 0.9742 0.9284 
X2 1.0 0.9872 
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10.11. 


10.12. 


10.13. 


10.14. 


10.15. 


a) “Como las correlaciones de orden cero son muy elevadas debe existir multicolineali- 
dad grave.” Comente. 
b) ¿Eliminaría del modelo las variables X? y X°? 
c) Si elimina las variables anteriores, ¿que sucederá con el valor del coeficiente de X;? 
Regresión por pasos. Al decidir sobre el “mejor” conjunto de variables explicativas para 
un modelo de regresión, los investigadores a menudo siguen el método de regresión por 
pasos. En este método se introducen, una por una, las variables X (regresión por pasos 
hacia delante) o se incluyen todas las variables X posibles en una regresión múltiple y 
se rechazan una a la vez (regresión por pasos hacia atrás). La decisión de aumentar o 
eliminar una variable suele tomarse con base en la contribución de esa variable a la SCE, 
a juicio de la prueba F. Con todo lo que sabe sobre multicolinealidad, ¿recomendaría 
alguno de estos procedimientos? ¿Por qué?” 


Establezca si las siguientes afirmaciones son verdaderas, falsas o inciertas, y justifique la 
respuesta. 
a) A pesar de la multicolinealidad perfecta, los estimadores de MCO son MELI. 


b) En los casos de alta multicolinealidad, no es posible evaluar la significancia individual 
de uno o más coeficientes de regresión parcial. 


c) Si una regresión auxiliar muestra que una R? particular es alta, hay evidencia clara de 
alta colinealidad. 


d) Las correlaciones altas entre parejas de regresoras no sugieren una alta multicolinea- 
lidad. 


e) La multicolinealidad es inofensiva si el objetivo del análisis es sólo la predicción. 


f) Entre mayor sea el FIV, ceteris paribus, más grandes serán las varianzas de los esti- 
madores de MCO. 


g) La tolerancia (TOL) es una medida de multicolinealidad mejor que el FIV. 


h) No podrá obtener un valor R? elevado en una regresión múltiple si todos los coeficien- 
tes parciales de pendiente no son estadísticamente significativos, en lo individual, con 
base en la prueba f usual. 


i) En la regresión de Y sobre X) y X3, suponga que hay poca variabilidad en los valo- 
res de A3. Esto aumentaría var (83). En el extremo, si todas las X; fueran idénticas, 
var (63) sería infinita. 


a) Demuestre que si rı; = 0 para i = 2, 3,. . . , k entonces 
Ripa k =Y 


b) ¿Qué importancia tiene este hallazgo para la regresión de la variable X (= Y) sobre 
XA), X3, Soo Xp? 
Suponga que todos los coeficientes de correlación de orden cero de X (= Y), X2, . . . , Xk 
son iguales a r. 
a) ¿Cuál es el valor de R?,,  ,? 
b) ¿Cuáles son los valores de los coeficientes de correlación de primer orden? 
En notación matricial se demuestra (apéndice C) que 
Ê = (XX) Xy 
a) ¿Qué sucede con B cuando hay colinealidad perfecta entre las X? 
b) ¿Cómo sabe si existe colinealidad perfecta? 


* Compruebe si su razonamiento está de acuerdo con el de Arthur S. Goldberger y D.B. Jochems, “Note on 
Stepwise Least-Squares”, Journal of the American Statistical Association, vol. 56, marzo de 1961, pp. 105-110. 


* Opcional. 


*10.16. 


*10.17. 


*10.18. 


10.19. 
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Con notación matricial se demuestra que 
var—cov (Ê) = EN 


¿Qué le sucede a esta matriz var-cov 
a) cuando hay multicolinealidad perfecta? 
b) cuando la colinealidad es alta pero no perfecta? 


Considere la siguiente matriz de correlación: 


O a E 
20 PI y... 
R> X3 SO] 1 Y3k 
ES 1 


Describa cómo calcularía, con base en la matriz de correlación, si a) hay colinealidad 
perfecta, b) hay colinealidad menos que perfecta y c) las X no están correlacionadas. 


Sugerencia: Puede utilizar |R| para responder estas preguntas, donde |R| denota el 
determinante de R. 


Variables explicativas ortogonales. Suponga que en el siguiente modelo 
Y, = Br + B2Xo + P343 +: + BrX ti + ui 


X> a X; no están correlacionadas. Tales variables se denominan variables ortogonales. Si 
éste es el caso: 


a) ¿Cuál será la estructura de la matriz (X"X)? 
b) ¿Cómo obtiene Î = (X'X)'X/y? 
c) ¿Cuál será la naturaleza de la matriz var-cov de B? 


d) Suponga que efectuó la regresión y luego desea introducir otra variable ortogonal, 
por ejemplo, X5+1, en el modelo. ¿Debe recalcular todos los coeficientes anteriores 
Bi a Bk? ¿Por qué? 


Considere el siguiente modelo: 
PNB; = B1 + fP2M, + B3M,-_1 + Ba(M, — Mı) Fur 


donde PNB, = PNB en el periodo t, M; = oferta monetaria en el periodo t, M;—ı = oferta 

monetaria en el periodo (t — 1) y (M; — M,_¡) = cambio en la oferta monetaria entre 

el tiempo t y el tiempo (t — 1). Este modelo postula entonces que el nivel del PNB en el 

periodo ź es una función de la oferta monetaria en el tiempo ź y en el tiempo (t — 1), lo 

mismo que del cambio en la oferta monetaria entre estos periodos. 

a) Si supone que tiene la información para estimar el modelo anterior, ¿podría estimar 
todos los coeficientes de este modelo? ¿Por qué? 


b) De no ser posible, ¿qué coeficientes pueden estimarse? 


c) Suponga que el término $3M,- estuviera ausente del modelo. ¿Su respuesta a a) sería 
la misma? 


d) Repita c) pero ahora suponga que el término 2M, está ausente del modelo. 


* Opcional. 
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10.20. Muestre que (7.4.7) y (7.4.8) también se expresan como 
E (X viza) 0213) — (X year) (X 10131) 
EE) N- r) 


p= (X vixi) 0%) 02 vixz) (X ias) 
(Z3) (Lo) (1 = r33) 


donde r23 es el coeficiente de correlación entre X? y X3. 


10.21. Con (7.4.12) y (7.4.15) muestre que cuando hay colinealidad perfecta, las varianzas de Bo 
y $3 son infinitas. 

10.22. Verifique que los errores estándar de las sumas de los coeficientes de pendiente, esti- 
mados a partir de (10.5.6) y (10.5.7), son 0.1549 y 0.1825, respectivamente (consulte la 
sección 10.5). 

10.23. Para el modelo de regresión con k variables puede mostrarse que la varianza del k-ésimo 
coeficiente de regresión parcial (k = 2,3,..., K) dado en la ecuación (7.5.6) también se 


expresa como* 
e a 
var = - 
T ER 


donde 0? = varianza de Y, of = varianza de la k-ésima variable explicativa, R? = R? 
de la regresión de X, sobre las variables X restantes y R? = coeficiente de determina- 
ción de la regresión múltiple, es decir, la regresión de Y sobre todas las variables X. 


a) ¿Qué sucede con var (Êr) si aumenta of, y todo lo demás se mantiene constante? 
¿Cuáles son las implicaciones para el problema de multicolinealidad? 

b) ¿Qué sucede con la fórmula anterior cuando la colinealidad es perfecta? 

c) Responda si es cierto o es falso: “La varianza de Br disminuye a medida que R? au- 
menta, de manera que el efecto de una R? alta puede compensarse por una R? alta”. 


10.24. Con base en la información anual para el sector manufacturero de Estados Unidos de 
1899 a 1922, Dougherty obtuvo los siguientes resultados de regresión:* 


logY = 2.81 — 0.53 log K+ 0.91 log L+ 0.047t 
ee = (1.38) (0.34) (0.14) (0.021) (1) 
R? = 0.97 F = 189.8 


donde Y = índice de producción real, K = índice de insumo capital real, L = indice de 
insumo trabajo real, t = tiempo o tendencia. 
Con la misma información, obtuvo también la siguiente regresión: 


log (Y) L)= —0.11 + 0.11 log (K/L) + 0.006t 
ee= (0.03) (0.15) (0.006) (2) 
R2=0.65  F=195 


* Esta fórmula proviene de R. Stone, “The Analysis of Market Demand”, Journal of the Royal Statistical Society, 
vol. B7, 1945, p. 297. Recuerde también (7.5.6). Para un análisis más detallado, véase Peter Kennedy, 

A Guide to Econometrics, 2a. ed., The MIT Press, Cambridge, Massachusetts, 1985, p. 156. 

Y Christopher Dougherty, Introduction to Econometrics, Oxford University Press, Nueva York, 1992, 

pp. 159-160. 
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a) ¿Existe multicolinealidad en la regresión (1)? ¿Cómo sabe? 

b) En la regresión (1), ¿cuál es el signo a priori de log K? ¿Concuerdan los resultados 
con esta expectativa? ¿Por qué? 

c) ¿Cómo justificaría la forma funcional de la regresión (1)? (Sugerencia: Función de 
producción de Cobb-Douglas.) 


d) Interprete la regresión (1). ¿Cuál es el papel de la variable de tendencia en esta regre- 
sión? 

e) ¿Cuál es la lógica de la estimación de la regresión (2)? 

f) Si hubo multicolinealidad en la regresión (1), ¿se vio reducida por la regresión (2)? 
¿Cómo sabe? 

g) Si la regresión (2) es una versión restringida de la regresión (1), ¿qué restricción im- 
pone el autor? (Sugerencia: Rendimientos a escala.) ¿Cómo sabe si esta restricción es 
válida? ¿Qué prueba utiliza? Muestre todos sus cálculos. 

h) ¿Son comparables los valores R? de las dos regresiones? ¿Por qué? ¿Cómo pueden 
hacerse comparables, si no lo son en la forma actual? 


10.25. Evalúe de manera crítica los siguientes enunciados: 


a) “De hecho, la multicolinealidad no es un error del modelo. Es una condición de la 
insuficiencia de datos.”* 

b) “Si no es factible obtener más datos, debe aceptarse que los datos con que se cuenta 
tienen una cantidad limitada de información, y, en consecuencia, se debe simplificar 
el modelo. Tratar de estimar modelos que a su vez son muy complicados es uno de los 
errores más comunes que cometen los econometristas aplicados inexpertos.”** 


c) “Para los investigadores resulta común afirmar que existe multicolinealidad siempre 
que los signos que se supusieron no se encuentran en los resultados de la regresión, 
cuando las variables que se sabe a priori que son importantes tienen valores f insig- 
nificantes, o cuando diversos resultados de regresión experimentan cambios impor- 
tantes siempre que se omite una variable explicativa. Por desgracia, ninguna de tales 
condiciones es necesaria o suficiente para la colinealidad; y además, ninguna propor- 
ciona sugerencias útiles, como el tipo de información adicional que se requeriría para 
resolver el problema de la estimación que afrontan.” 

d) “... toda regresión de serie de tiempo con más de cuatro variables independientes 
resulta ser una basura.* 


Ejercicios empíricos 


10.26. Klein y Goldberger intentaron ajustar el siguiente modelo de regresión a la economía de 
Estados Unidos: 


Y, =B1 + B2Xo2 + B3A3; + PaXa¡ +u; 


donde Y = consumo, X> = ingreso salarial, X3 = ingreso no salarial, no procedente del 
campo, y X4 = ingreso procedente del campo. Pero, como se espera que X2, X3 y X4 sean 
muy colineales, obtuvieron las siguientes estimaciones de 3 y 4 del análisis de corte 
transversal: 


* Samprit Chatterjee, Ali S. Hadi y Betram Price, Regression Analysis by Example, 3a. ed., John Wiley & Sons, 
Nueva York, 2000, p. 226. 


** Russel Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford University Press, 
Nueva York, 1993, p. 186. 


Y Peter Kennedy, A Guide to Econometrics, 4a. ed., MIT Press, Cambridge, Massachusetts, 1998, p. 187. 


* Esta cita se atribuye al fallecido econometrista Zvi Griliches y se tomó de Ernst R. Berndt, The Practice of 
Econometrics: Classic and Contemporary, Addison Wesley, Reading, Massachusetts, 1991, p. 224. 
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TABLA 10.12 Año Y X2 X Ka Año Y X2 Ko a 

Fuente: L. R. Klein y A. S. Gold- 1936 62.8 43.41 17.10 3.96 1946 95.7 76.73 28.26 9.76 

bereon dn Eronen AO 65.0 46.44 18.65 5.48 1947 98.3 75.91 27.91 9.31 

United States, 1929-1952, North 

a 1938 639 44.35 17.09 4.37 1948 100.3 77.62 32.30 9.85 

o aL 1939 67.5 47.82 19.28 4.51 1949 103.2 78.01 31.39 7.21 
1940 71.3 51.02 2324 4.88 1950 108.9 83.57 35.61 7.39 


1941 76.6 58.71 28.11 6.37 1951 108.5 90.59 37.58 7.98 
1945* 86.3 87.69 30.29 8.96 1952 111.4 95.47 35.17 7.42 


* Falta la información correspondiente a los años de guerra 1942-1944. Los datos de los demás años están en miles de millones de 
dólares de 1939. 


B3 = 0.75ß2 y b4 = 0.62582. Con estas estimaciones reformularon su función de consumo 
de la siguiente manera: 


Y; = B1 + B2(Xa: + 0.75X3; + 0.625X4;) + u; = B1 + B2Z; + ui 


donde Z; = Xz; + 0.75X3; + 0.625X4;. 

a) Ajuste el modelo modificado a los datos de la tabla 10.12 y obtenga estimaciones de 
Bra Ba. 

b) ¿Como interpretaría la variable Z? 

10.27. La tabla 10.13 proporciona cifras sobre importaciones, PIB e índice de precios al con- 
sumidor (IPC) de Estados Unidos de 1975 a 2005. Se le pide considerar el siguiente 
modelo: 

In Importaciones, = 61 + 62 In PIB, + 63 ln IPC, + u; 
a) Estime los parámetros de este modelo con la información de la tabla. 
b) ¿Sospecha multicolinealidad en los datos? 
c) Efectúe las siguientes regresiones: 
1) In Importaciones, = 4; + 4) ln PIB, 
2) In Importaciones, = Bı + B2 In IPC, 
3) In PIB; = Cı + C2 ln IPC, 
Con base en estas regresiones, ¿qué puede decir sobre la naturaleza de la multico- 
linealidad en los datos? 


TABLA 10.1 3 Año IPC PIB Importaciones Año IPC PIB Importaciones 
Importaciones de Esta- 
dos Unidos, PIB e IPC, 1975 53.8 1638.3 98 185 1991 136.2 5995.9 491 020 
1975-2005 (para todos 1976 56.9 18253 124 228 1992 140.3 6337.7 536 528 
los consumidores urba- 1977 60.6 2030.9 151 907 1993 144.5 6657.4 589 394 
nos; 1982-1984 = 100, 1978 65.2 2294.7 176 002 1994 148.2 7072.2 668 690 
nt coc O 726 25833 212 007 1995 152.4 7397.7 749 374 
1980 82.4 2789.5 249 750 1996 156.9 7816.9 803 113 
Fuente: Department of Labor, 1981 90.9 3128.4 265 067 1997 160.5 8304.3 876 470 
Dot acto 1982 96.5 3225.0 247 642 1998 163.0 8747.0 917 103 
1983 99.6 3536.7 268 901 1999 166.6 9268.4 1 029 980 
1984 103.9 3933.2 332 418 2000 172.2 9817.0 1 224 408 
1985 107.6 4220.3 338 088 2001 177.1 10128.0 1145 900 
1986 109.6 4462.8 368 425 2002 179.9 10 469.6 1164 720 
1987 113.6 4739.5 409 765 2003 184.0 10 960.8 1 260 717 
1988 118.3 5103.8 447 189 2004 188.9 11712.5 1 472 926 
1989 124.0 5484.4 477 665 2005 195.3 12 455.8 1 677 371 


1990 130.7 5 803.1 498 438 


TABLA 10.14 
Datos de automóviles de 
pasajeros 


Fuente: Business Statistics, 1986. 
Suplemento de Current Survey of 
Business, Department of Com- 
merce, Estados Unidos. 


10.28. 


10.29. 


10.30. 
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d) Suponga que existe multicolinealidad en los datos, pero que Ê y B son significativos 
individualmente en el nivel de 5%, y que la prueba global F es también significativa. 
En este caso, ¿debe preocupar el problema de colinealidad? 

Consulte el ejercicio 7.19 sobre la función de demanda de pollo en Estados Unidos. 

a) Con el modelo log-lineal o doble log, estime las diversas regresiones auxiliares. 
¿Cuántas hay? 

b) A partir de estas regresiones auxiliares, ¿cómo decide cuáles regresoras son muy 
colineales? ¿Qué prueba utiliza? Muestre sus cálculos en detalle. 

c) Si existe colinealidad significativa en los datos, ¿cuál(es) variable(s) eliminaría(n) 
para reducir la gravedad del problema de colinealidad? Si lo hace, ¿qué problemas 
econométricos enfrenta? 

d) ¿Tiene alguna sugerencia diferente a la de eliminar variables para atenuar el problema 
de colinealidad? Explique. 

La tabla 10.14 proporciona información sobre los automóviles de pasajeros nuevos ven- 

didos en Estados Unidos como función de diversas variables. 

a) Desarrolle un modelo lineal o log-lineal apropiado para estimar una función de de- 
manda de automóviles en Estados Unidos. 

b) Si decide incluir todas las regresoras dadas en la tabla como variables explicativas, 
¿espera encontrar el problema de multicolinealidad? ¿Por qué? 

c) Si espera lo anterior, ¿cómo resolvería el problema? Plantee los supuestos claramente 
y muestre todos los cálculos de manera explícita. 

Para evaluar la factibilidad de un salario anual garantizado (impuesto sobre la renta ne- 

gativo), Rand Corporation valoró en un estudio la respuesta de la oferta de trabajo (horas 


Año 

1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 
1981 
1982 
1983 
1984 
1985 
1986 


Y X2 X3 Xa X5 X6 
10 227 112.0 121.3 776.8 4.89 79 367 
10 872 111.0 125.3 839.6 4.55 82 153 
11 350 111.1 133.1 949.8 7.38 85 064 

8 775 117.5 147.7 1 038.4 8.61 86 794 
8 539 127.6 161.2 1 142.8 6.16 85 846 
9 994 135.7 170.5 1 252.6 S122 88 752 
11 046 142.9 181.5 113793 5.50 92 017 
11 164 153.8 195.3 1 551.2 7.78 96 048 
10 559 166.0 217.7 1 729.3 10.25 98 824 
8 979 179.3 247.0 1 918.0 11.28 99 303 
8 535 190.2 272.3 2 127.6 13.73 100 397 
7 980 197.6 286.6 2 261.4 11.20 99 526 
9179 202.6 297.4 2 428.1 8.69 100 834 
10 394 208.5 307.6 2 670.6 9.65 105 005 
11 039 215.2 318.5 2 841.1 7.75 107 150 
11 450 224.4 323.4 3 022.1 6.31 109 597 


Y = automóviles de pasajeros nuevos vendidos (miles), sin ajuste estacional. 
X = automóviles nuevos, IPC, 1967 = 100, sin ajuste estacional. 
X3 = IPC, todos los renglones, todos los consumidores urbanos, 1967 = 100, sin ajuste estacional. 
X4 = ingreso personal disponible (IPD), miles de millones de dólares, sin ajustar por variación estacional. 
X; = tasa de interés, porcentaje, colocación directa de valores de la compañía financiera. 
X6 = fuerza laboral civil empleada (miles), sin ajustar por variación estacional. 
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promedio de trabajo) ante un incremento de los salarios por hora.* Los datos de tal es- 
tudio se obtuvieron de una muestra nacional de 6 000 familias cuyo jefe (varón) ganaba 
menos de 15 000 dólares al año. Los datos se dividieron en 39 grupos demográficos para 
su análisis. Estos datos se proporcionan en la tabla 10.15. En vista de que para cuatro 
grupos demográficos había datos faltantes respecto de algunas variables, los datos de la 
tabla se refieren sólo a 35 de esos grupos. Las definiciones de las diversas variables del 
análisis se dan al final de la tabla. 


TABLA 10.15 


3 Observación Horas Tasa  lAPE IAPO IIPAN Valores Edad DEP Escolaridad 
Horas de trabajo y otros 


ao a n i 2157 2.905 1121 291 380 7250 38.5 2.340 10.5 
2 2174 2.970 1128 301 398 7744 393 2.335 10.5 

PETE a, 3 2062 2.350 1214 326 185 3068 40.1 2.851 8.9 
ostera, Incore Guarantees an 4 2111 2.511 1203 49 117 1632 224 1159 115 
EE E 5 2134 2.791 1013 594 730 12710 57.7 1.229 8.8 
de 1970. 6 2185 3.040 1135 287 382 7706 38.6 2.602 10.7 
7 2210 3.222 1100 295 474 9338 39.0 2.187 11.2 

8 2105 2.493 1180 310 255 4730 399 2.616 9.3 

9 2267 2.838 1298 252 431 8317 38.9 2.024 111 

10 2205 2.356 885 264 373 6789 38.8 2.662 9.5 

11 2121 2.922 1251 328 312 5907 398 2.287 10.3 

12 2109 2.499 1207 347 271 5069 39.7 3.193 8.9 

13 2108 2.796 1036 300 259 4614 38.2 2.040 9.2 

14 2047 2.453 1213 297 139 1987 40.3 2.545 9.1 

15 2174 3.582 1141 414 498 10239 40.0 2.064 117 

16 2067 2.909 1805 290 239 4439 39.1 2.301 10,5 

17 2159 2.511 1075 289 308 5621 39.3 2.486 9.5 

18 2257 2.516 1093 176 392 7293 37.9 2.042 101 

19 1985 1.423 553 381 146 1866 40.6 3.833 6.6 

20 2184 3.636 1091 291 560 11240 39.1 2.328 11.6 

21 2084 2.983 1327 331 296 5653 39.8 2.208 10.2 

22 2051 2.573 1194 279 172 2806 40.0 2.362 9.1 

23 2127 3.262 1226 314 408 8042 39.5 2.259 10.8 

24 2102 3.234 1188 414 352 7557 39.8 2.019 10.7 

25 2098 2.280 973 364 272 4400 40.6 2.661 8.4 

26 2042 2.304 1085 328 140 1739 41.8 2.444 8.2 

27 2181 2.912 1072 304 383 7340 39.0 2.337 10.2 

28 2186 3.015 1122 30 352 7292 37.2 2.046 10.9 

29 2188 3.010 990 366 374 7325 38.4 2.847 10.6 

30 2077 1.901 350 209 95 1370 37.4 4.158 8.2 

31 2196 3.009 947 294 342 6888 37.5 3.047 10.6 

32 2093 1.899 342 311 120 1425 37.5 4.512 8.1 

33 2173 2959 1116 296 387 7625 39.2 2.342 10.5 

34 2179 2.971 1128 312 397 7779 394 2341 10.5 

35 2200 2.980 1126 204 393 7885 39.2 2.341 10.6 


Notas: Horas = horas promedio trabajadas durante el año. 

Tasa = salario promedio por hora (dólares). 

IAPE = ingresos anuales promedio de la esposa (dólares). 

IAPO = ingresos anuales promedio de otros miembros de la familia (dólares). 

IPAN = ingreso promedio anual no devengado. 

Valores = bienes familiares promedio (cuentas bancarias, etc.) (dólares). 
Edad = edad promedio del entrevistado. 
DEP = número promedio de dependientes. 
Escolaridad = nivel máximo de escolaridad promedio completado. 


* D.H. Greenberg y M. Kosters, Income Guarantees and the Working Poor, Rand Corporation, R-579-OEO, 
diciembre de 1970. 
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a) Realice la regresión de las horas promedio trabajadas durante un año sobre las varia- 
bles suministradas en la tabla e interprete su regresión. 


b) ¿Existe evidencia de multicolinealidad en los datos? ¿Cómo sabe? 


c) Calcule las medidas del factor inflacionario de la varianza (VFI) y de la TOL para las 
diversas regresoras. 


d) Si existe un problema de multicolinealidad, ¿qué acciones correctivas, si acaso hay 
alguna, tomaría? 
e) ¿Qué sugiere este estudio sobre la viabilidad de un impuesto sobre la renta negativo? 


La tabla 10.16 muestra datos sobre la tasa de criminalidad en 47 estados de EU durante 
1960. Intente elaborar un modelo apropiado para explicar la tasa de criminalidad respecto 
de las 14 variables socioeconómicas de la tabla. Ponga especial atención al problema de 
la colinealidad cuando desarrolle su modelo. 


Consulte los datos Longley suministrados en la sección 10.10. Repita la regresión dada 
en esa tabla pero sin los datos de 1962; es decir, haga la regresión del periodo 1947-1961. 
Compare ambas regresiones. ¿Qué conclusión general deduce de este ejercicio? 

Datos Longley actualizados. Ampliamos los datos de la sección 10.10 para incluir ob- 
servaciones de 1959-2005. Los nuevos datos aparecen en la tabla 10.17. Los datos se 
relacionan con Y = número de personas empleadas, en millares; X, = deflactor de pre- 
cios implícito del PNB; X) = PNB, millones de dólares; X3 = número de personas des- 
empleadas, en millares; X4 = número de personas en las fuerzas armadas, en millares; 
X; = población no institucionalizada mayor de 16 años, y X¿ = año, igual a 1 en 1959, 
2 en 1960 y 47 en 2005. 


a) Trace diagramas de dispersión, como se indica en el capítulo, para evaluar las relacio- 
nes entre las variables independientes. ¿Hay relaciones fuertes? ¿Parecen lineales? 

b) Elabore una matriz de correlación. ¿Qué variables parecen relacionarse más ente sí, 
sin incluir la dependiente? 

c) Ejecute una regresión estándar de MCO para pronosticar el número de personas em- 
pleadas en millares. ¿Los coeficientes de las variables independientes se comportan 
como esperaría? 

d) Con base en los resultados anteriores, ¿cree que estos datos sufren de multicolineali- 
dad? 

Conforme el queso se añeja, varios procesos químicos tienen lugar y determinan el sabor 

del producto final. Los datos presentados de la tabla 10.18 corresponden a concentra- 

ciones de varias sustancias químicas en una muestra de 30 quesos cheddar maduros, 

y medidas subjetivas respecto del sabor de cada muestra. Las variables acético y H2S 

corresponden al logaritmo natural de la concentración de ácido acético y sulfuro de hidró- 

geno, respectivamente. La variable láctico no se transformó logarítmicamente. 

a) Trace un diagrama de dispersión de las cuatro variables. 

b) Ejecute una regresión bivariada del sabor sobre acético y H2S, e interprete los resul- 
tados. 

c) Ejecute una regresión bivariada de sabor sobre láctico y H2S, e interprete los resul- 
tados. 

d) Ejecute una regresión múltiple de sabor sobre acético, H2S y láctico. Interprete los 
resultados. 

e) Con lo que ahora sabe sobre multicolinealidad, ¿cómo elegiría entre estas regresiones? 

f) ¿Qué conclusiones generales deduce de su análisis? 


* Opcional. 
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TABLA 10.16 Datos sobre criminalidad en 47 estados de Estados Unidos en 1960 


Observación R Edad S EP GXo GX1 FT H N NB Ui U2 Ww X 
1 79.1 151 1 91 58 56 510 950 33 301 108 41 394 261 
2 163.5 143 0 113 103 95 583 1012 13 102 96 36 557 194 
3 57.8 142 1 89 45 44 533 969 18 219 94 33 318 250 
4 196.9 136 0 121 149 141 577 994 157 80 102 39 673 167 
5 123.4 141 0 121 109 101 591 985 18 30 91 20 578 174 
6 68.2 121 0 110 118 115 547 964 25 44 84 29 689 126 
7 96.3 127 1 111 82 79 519 982 4 139 97 38 620 168 
8 155.5 131 1 109 115 109 542 969 50 179 79 35 472 206 
9 85.6 157 1 90 65 62 553 955 39 286 81 28 421 239 

10 70.5 140 0 118 71 68 632 1029 7 15 100 24 526 174 
11 167.4 124 0 105 121 116 580 966 101 106 77 35 657 170 
12 84.9 134 0 108 75 71 595 972 47 59 83 31 580 172 
13 51.1 128 0 113 67 60 624 972 28 10 77 25 507 206 
14 66.4 135 0 117 62 61 595 986 22 46 ID X 529 190 
15 79.8 152 1 87 57 53 530 986 30 72 92 43 405 264 
16 94.6 142 1 88 81 77 497 956 33 321 116 47 427 247 
17 53.9 143 0 110 66 63 537 977 10 6 114 35 487 166 
18 92.9 135 1 104 123 115 537 978 31 170 89 34 631 165 
19 75.0 130 0 116 128 128 536 934 51 24 78 34 627 135 
20 122.5 125 0 108 113 105 567 985 78 94 130 58 626 166 
21 74.2 126 0 108 74 67 602 984 34 12 102 33 557 195 
22 43.9 157 1 89 47 44 512 962 22 423 97 34 288 276 
23 121.6 132 0 96 87 83 564 953 43 92 83 32 513 227 
24 96.8 131 0 116 78 73 574 1 038 7 36 142 42 540 176 
25 52.3 130 0 116 63 57 641 984 14 26 Zo z 486 196 
26 199.3 131 0 121 160 143 631 1.071 3 77 102 41 674 152 
27 34.2 135 0 109 69 71 540 965 6 4 80 22 564 139 
28 121.6 152 0 112 82 76 57 1018 10 79 103 28 537 215 
29 104.3 119 0 107 166 157 521 938 168 89 92 36 637 154 
30 69.6 166 1 89 58 54 521 973 46 254 72 26 396 237 
31 37.3 140 0 93 55 54 535 1 045 6 20 135 40 453 200 
32 75.4 125 0 109 90 81 586 964 97 82 105 43 617 163 
33 107.2 147 1 104 63 64 560 972 23 95 76 24 462 233 
34 92.3 126 0 118 97 97 542 990 18 21 102 35 589 166 
35 65.3 123 0 102 97 87 526 948 113 76 124 50 572 158 
36 127.2 150 0 100 109 98 531 964 9 24 87 38 559 153 
37 83.1 177 1 87 58 56 638 974 24 349 76 28 382 254 
38 56.6 133 0 104 51 47 599 1 024 7 40 9 27 425 225 
39 82.6 149 1 88 61 54 515 953 36 165 86 35 395 251 
40 115.1 145 1 104 82 74 560 981 96 126 88 31 488 228 
41 88.0 148 0 122 72 66 601 998 9 19 84 20 590 144 
42 54.2 141 0 109 56 54 523 968 4 2 107 37 489 170 
43 82.3 162 1 99 75 70 522 996 40 208 73 27 496 224 
44 103.0 136 0 121 95 96 574 1012 29 36 111 37 622 162 
45 45.5 139 1 88 46 41 480 968 19 49 135 53 457 249 
46 50.8 126 0 104 106 97 599 989 40 24 78 25 593 171 
47 84.9 130 0 121 90 91 623 1049 3 22 113 40 588 160 


Fuente: W. Vandaele, “Participation in Illegitimate Activities: Erlich Revisted”, en A. Blumstein, J. Cohen y Nagin D. (eds.), Deterrence and Incapacitation, National Academy 
of Sciences, 1978, pp. 270-335. 


Definición de las variables: 
R = tasa de criminalidad, número de delitos reportados a la policía por millón de personas. 
Edad = número de hombres entre 14 y 24 años de edad por cada 1 000. 
S = variable indicadora de los estados sureños (1 = sí, 0 = no). 
EP = número promedio de años de escolaridad multiplicado por 10 para personas de 25 años o mayores. 
GXo = gastos de la policía per cápita a cargo del estado y el gobierno local en 1960. 
GX; = gastos de la policía per cápita a cargo del estado y el gobierno local en 1959. 
FT = tasa de participación de la fuerza de trabajo por cada 1 000 hombres civiles urbanos entre 14 y 24 años de edad. 
H = número de hombres por cada 1 000 mujeres. 
N = tamaño de la población estatal en cientos de miles. 
NB = número de no blancos por cada 1 000 personas. 
D; = tasa de desempleo de hombres urbanos por cada 100 habitantes de entre 14 y 24 años de edad. 
D, = tasa de desempleo de hombres urbanos por cada 100 habitantes de entre 35 y 39 años de edad. 
W = valor medio de bienes y valores transferibles, o ingreso familiar en decenas de dólares. 
X = número de familias por 1 000 salarios iguales a la ⁄ de la mediana del ingreso. 
Observación = estado (47 estados para 1960). 


TABLA 10.17 
Datos Longley actualiza- 
dos, 1959-2005 


Fuente: Department of Labor, 
Bureau of Labor Statistics, 
Estados Unidos, y http://diadapp. 
dmdc.osd.mil/personnel/ 
MILITARY /Miltop.htm. 
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Observación 


1959 
1960 
1961 
1962 
1963 
1964 
1965 
1966 
1967 
1968 
1969 
1970 
1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 
1981 
1982 
1983 
1984 
1985 
1986 
1987 
1988 
1989 
1990 
1991 
1992 
1993 
1994 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 
2004 
2005 


Y 


64 630 
65 778 
65 746 
66 702 
67 762 
69 305 
71 088 
72 895 
74 372 
75 920 
77 902 
78 678 
79 367 
82 153 
85 064 
86 794 
85 846 
88 752 
92 017 
96 048 
98 824 
99 303 
100 397 
99 526 
100 834 
105 005 
107 150 
109 597 
112 440 
114 968 
117 342 
118 793 
117 718 
118 492 
120 259 
123 060 
124 900 
126 708 
129 558 
131 463 
133 488 
136 891 
136 933 
136 485 
137 736 
139 252 
141 730 


Xı 
82.908 
84.074 
85.015 
86.186 
87.103 
88.438 
90.055 
92.624 
95.491 
99.56 

104.504 
110.046 
115.549 
120.556 
127.307 
138.82 

151.857 
160.68 

170.884 
182.863 
198.077 
216.073 
236.385 
250.798 
260.68 

270.496 
278.759 
284.895 
292.691 
302.68 

314.179 
326.357 
337.747 
345.477 
353.516 
361.026 
368.444 
375.429 
381.663 
385.881 
391.452 
399.986 
409.582 
416.704 
425.553 
437.795 
451.946 


X2 

509 300 
529 500 
548 200 
589 700 
622 200 
668 500 
724 400 
792 900 
838 000 
916 100 
990 700 

1 044 900 
1134 700 
1 246 800 
1395 300 
1515 500 
1651 300 
1842 100 
2051 200 
2316 300 
2595 300 
2 823 700 
3 161 400 
3 291 500 
3 573 800 
3 969 500 
4 246 800 
4 480 600 
4 757 400 
5 127 400 
5 510 600 
5 837 900 
6 026 300 
6 367 400 
6 689 300 
7 098 400 
7 433 400 
7 851 900 
8 337 300 
8 768 300 
9 302 200 
9 855 900 
10 171 600 
10 500 200 
11 017 600 
11 762 100 
12 502 400 


X3 
3 740 
3 852 
4714 
3911 
4 070 
3 786 
3 366 
2 875 
2975 
2817 
2 832 
4 093 
5016 
4 882 
4 365 
5156 
7929 
7 406 
6 991 
6 202 
6 137 
7 637 
8 273 
10 678 
10 717 
8 539 
8 312 
8 237 
7425 
6 701 
6 528 
7 047 
8 628 
9613 
8 940 
7996 
7 404 
7236 
6739 
6210 
5 880 
5 692 
6 801 
8 378 
8 774 
8 149 
7 591 


X4 
2 552 
2 514 
2573 
2 827 
2 737 
2 738 
2 722 
3123 
3 446 
3535 
3 506 
3 188 
2816 
2 449 
2 327 
2229 
2180 
2144 
2133 
2117 
2 088 
2102 
2142 
2179 
2199 
2219 
2234 
2244 
2257 
2224 
2 208 
2167 
2118 
1966 
1760 
1673 
1579 
1 502 
1 457 
1423 
1 380 
1 405 
1412 
1425 
1 423 
1411 
1378 


Xs 
120 287 
121 836 
123 404 
124 864 
127 274 
129 427 
131 541 
133650 
135 905 
138 171 
140 461 
143 070 
145 826 
148 592 
151 476 
154 378 
157 344 
160 319 
163 377 
166 422 
169 440 
172 437 
174 929 
177176 
179 234 
181 192 
183174 
185 284 
187 419 
189 233 
190 862 
192 644 
194 936 
197 205 
199 622 
201 970 
204 420 
207 087 
209 846 
212 638 
215 404 
218 061 
220 800 
223 532 
226 223 
228 892 
231 552 


ES 


WO You. WN — 
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o 10.18 Obs. Sabor Acético H2S Láctico 
Sustancias químicas en 
SE 1 12.30000 4.543000 3.135000 0.860000 
2 20.90000 5.159000 5.043000 1.530000 
Fuente: http://lib.stat.cmu.edw/ 3 39.00000 5.366000 5.438000 1.570000 
DAST Dannie che e hnl 4 47.90000 5.759000 7.496000 1.810000 
5 5.600000 4.663000 3.807000 0.990000 
6 25.90000 5.697000 7.601000 1.090000 
7 37.30000 5.892000 8.726000 1.290000 
8 21.90000 6.078000 7.966000 1.780000 
9 18.10000 4.898000 3.850000 1.290000 
10 21.00000 5.242000 4.174000 1.580000 
11 34.90000 5.740000 6.142000 1.680000 
12 57.20000 6.446000 7.908000 1.900000 
13 0.700000 4.477000 2.996000 1.060000 
14 25.90000 5.236000 4.942000 1.300000 
15 54.90000 6.151000 6.752000 1.520000 
16 40.90000 3.365000 9.588000 1.740000 
17 15.90000 4.787000 3.912000 1.160000 
18 6.400000 5.142000 4.700000 1.490000 
19 18.00000 5.247000 6.174000 1.630000 
20 38.90000 5.438000 9.064000 1.990000 
21 14.00000 4.564000 4.949000 1.150000 
22 15.20000 5.298000 5.220000 1.330000 
23 32.00000 5.455000 9.242000 1.440000 
24 56.70000 5.855000 10.19900 2.010000 
25 16.80000 5.366000 3.664000 1.310000 
26 11.60000 6.043000 3.219000 1.460000 
27 26.50000 6.458000 6.962000 1.720000 
28 0.700000 5.328000 3.912000 1.250000 
29 13.40000 5.802000 6.685000 1.080000 


30 5.500000 6.176000 4.787000 1.250000 


Capítulo l l 


Heteroscedasticidad: 
¿qué pasa si la 
varianza del error 
no es constante? 


Un supuesto importante del modelo clásico de regresión lineal (supuesto 4) es que las pertur- 
baciones u; que aparecen en la función de regresión poblacional son homoscedásticas; es decir, 
que todas tienen la misma varianza. En este capítulo examinaremos la validez de este supuesto 
y también lo que sucede si no se cumple. Como en el capítulo 10, buscamos respuestas a las 
siguientes preguntas: 

1. ¿Cuál es la naturaleza de la heteroscedasticidad? 

2. ¿Cuáles son sus consecuencias? 

3. ¿Cómo se detecta? 
4, 


¿Qué remedios existen? 


11.1 Naturaleza de la heteroscedasticidad 


Como vimos en el capítulo 3, un supuesto importante del modelo clásico de regresión lineal es 
que la varianza de cada término de perturbación u;, condicional a los valores seleccionados de las 
variables explicativas, es algún número constante igual a o°. Éste es el supuesto de homoscedas- 
ticidad, o igual (homo) dispersión (cedasticidad), es decir, igual varianza. Simbólicamente, 
Ela)=0? 1i=L Zn (11.1.1) 

Gráficamente, la homoscedasticidad en el modelo de regresión con dos variables se observa 
en la figura 3.4, la cual, por conveniencia, se reproduce como la figura 11.1. Como lo indica esta 
figura, la varianza condicional de Y; (la cual es igual a la de u;), condicional a las X; dadas, per- 
manece igual sin importar los valores que tome la variable X. 

En contraste, observe la figura 11.2, donde la varianza condicional de Y; aumenta a medida 
que lo hace X. Aquí, las varianzas de Y; no son las mismas. Por tanto, hay heteroscedasticidad. 
Simbólicamente, 


E(u?) = 0f (11.1.2) 
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FIGURA 11.1 
Perturbaciones homosce- 
dásticas. Y 
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FIGURA 11.2 
Perturbaciones heterosce- 
dásticas. 5 
S] 
© 
i 
v 
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Observe el subíndice de ø?, que indica que las varianzas condicionales de u; (= varianzas 
condicionales de Y;) ya no son constantes. 

Para entender la diferencia entre homoscedasticidad y heteroscedasticidad, suponga que en 
el modelo con dos variables Y; = bı + 2X; + ui, Y representa el ahorro y X el ingreso. Las fi- 
guras 11.1 y 11.2 indican que, a medida que el ingreso aumenta, el ahorro en promedio también 
aumenta. Pero, en la figura 11.1, la varianza del ahorro permanece igual en todos los niveles de 
ingreso, mientras que en la figura 11.2 se incrementa con aumentos del ingreso. Parece que en la 
figura 11.2, en promedio, las familias de ingresos más altos ahorran más que las de ingresos más 
bajos, pero también hay más variabilidad en su ahorro. 

Hay diversas razones por las cuales las varianzas de u; pueden ser variables, algunas de las 
cuales son las siguientes.' 


1. Con base en los modelos de aprendizaje de los errores, a medida que la gente aprende, 
disminuyen sus errores de comportamiento con el tiempo. En este caso, esperamos que 0? se 
reduzca. Como ejemplo, considere la figura 11.3, que relaciona el número de errores cometidos 
en una prueba de mecanografía durante un periodo dado. Como indica la figura 11.3, a medida 
que aumenta el número de horas de esta práctica, se reduce el número promedio de errores de 
mecanografía, al igual que sus varianzas. 


2. A medida que aumentan los ingresos, la gente posee más ingreso discrecional? y, por 
tanto, tiene mayores posibilidades de decidir cómo disponer de su ingreso. En consecuencia, 


1 Véase Stefan Valavanis, Econometrics, McGraw-Hill, Nueva York, 1959, p. 48. 


2 Como señala Valavanis, “El ingreso aumenta y ahora la gente escasamente distingue los dólares, mientras 
que antes distinguía las monedas de diez centavos”, ibid., p. 48. 


FIGURA 11.3 
Ilustración de la heteros- 
cedasticidad. 
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xX 


2 . r er + 
es probable que of aumente con el ingreso. Así, en la regresión del ahorro sobre el ingreso, es 


probable encontrar que o? aumenta con el ingreso (como en la figura 11.2), pues las personas 


L 
tienen mayores posibilidades de determinar su comportamiento respecto del ahorro. En forma 
similar, se espera que las compañias con mayores ganancias presenten mayor variabilidad en sus 
políticas de dividendos que las compañías cuyas ganancias son menores. Además, es probable 
que las empresas orientadas al crecimiento presenten una mayor variabilidad en sus tasas de pago 


de dividendos que las empresas ya establecidas. 


3. A medida que mejoran las técnicas de recolección de datos, es probable que 0? se reduzca. 
Así, es probable que los bancos con equipos complejos de procesamiento de información come- 
tan menos errores en los informes mensuales o trimestrales de sus clientes que los bancos que 
no los posean. 


4. La heteroscedasticidad también surge por la presencia de datos atípicos o aberrantes. Una 
observación atípica es la que es muy diferente (muy pequeña o muy grande) en relación con las 
demás observaciones en la muestra. De manera más precisa, un dato atípico es una observación 
que proviene de una población distinta a la que genera las demás observaciones de la muestra.’ 
La inclusión o exclusión de una observación de este tipo, en especial si el tamaño de la muestra 
es pequeño, puede alterar sustancialmente los resultados del análisis de regresión. 

Como ejemplo considere el diagrama de dispersión de la figura 11.4. Con base en los datos 
de la tabla 11.9 del ejercicio 11.22, en esta figura graficamos la tasa de cambio porcentual de los 
precios de las acciones (Y) y los precios al consumidor (X ) para el periodo posterior a la Segunda 
Guerra Mundial hasta 1969 en 20 países. En esta figura, la observación sobre Y y X para Chile se 
considera atípica, pues los valores Y y X son mucho más grandes que para el resto de los países. 
En estas situaciones es difícil mantener el supuesto de homoscedasticidad. En el ejercicio 11.22 
se le pide ver qué sucede con los resultados de la regresión si se retiran del análisis las observa- 
ciones de Chile. 


5. Otra fuente de heteroscedasticidad surge de la violación del supuesto 9 del MCRL, que 
establece que el modelo de regresión está correctamente especificado. Aunque analizaremos más 
a fondo los errores de especificación en el capítulo 13, con mucha frecuencia lo que parece 
heteroscedasticidad puede deberse a que se omitan del modelo algunas variables importantes. 
Así, en la función de demanda de un bien, si no se incluyen los precios de los bienes que le son 
complementarios o con los que compite (sesgo de variable omitida), los residuos de la regresión 
pueden dar la clara impresión de que la varianza del error no es constante. Pero si se incluyen en 
el modelo las variables omitidas, esa impresión puede desaparecer. 


3 El autor agradece a Michael McAleer por este señalamiento. 
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FIGURA 11.4 
Relación entre precios de 
acciones y precios al con- 
sumidor. 


FIGURA 11.5 
Residuos de las regre- 
siones de a) impactos 
publicitarios en el gasto 
publicitario (GASP) y b) 
impactos publicitarios en 
GASP y GASP?. 
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Como un ejemplo concreto, recuerde el estudio de los impactos publicitarios retenidos (Y) en 
relación con el gasto en publicidad (X). (Consulte el ejercicio 8.32.) Si sólo hace la regresión de 
Y sobre X y se observan los residuos de esta regresión, se presenta un patrón, pero si se efectúa 
la regresión de Y sobre X y sobre X?, se verá otro patrón, lo cual se distingue con claridad en la 
figura 11.5. Ya comprobamos que X? pertenece al modelo. (Consulte el ejercicio 8.32.) 


6. Otra fuente de la heteroscedasticidad es la asimetría en la distribución de una o más regre- 
soras incluidas en el modelo. Los ejemplos los constituyen variables económicas como ingreso, 
riqueza y escolaridad. Es bien sabido que la distribución del ingreso y la riqueza en la mayoría 
de las sociedades es desigual, pues la mayor parte del ingreso o la riqueza le corresponde a unos 
cuantos individuos pertenecientes a los estratos superiores. 


7. Otras fuentes de heteroscedasticidad: como señala David Hendry, la heteroscedasticidad 
también surge debido a 1) la incorrecta transformación de los datos (por ejemplo, las transfor- 
maciones de razón o de primeras diferencias) y 2) una forma funcional incorrecta (por ejemplo, 
modelos lineales frente a modelos log-lineales).* 


60 pF 40r 
407 
20 
20 
0 0 
-20 F- 
-20 
-40 + 
60 ji 1 | ji | | | | | | J -40 ] | É | | | Í J 
2 4 6 8 10 12 14 16 18 20 22 2 4 6 8 10 12 14 16 18 20 22 
a) b) 


4 David F. Hendry, Dynamic Econometrics, Oxford University Press, 1995, p. 45. 
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Observe que el problema de heteroscedasticidad es quizá más común en la información de 
corte transversal que en la de series de tiempo. En la información de corte transversal, por lo 
general se trata con miembros de una población en un momento dado, como consumidores in- 
dividuales o sus familias, empresas, industrias o subdivisiones geográficas, como estados, paí- 
ses, ciudades, etc. Además, estos miembros pueden ser de diferentes tamaños, como empresas 
pequeñas, medianas o grandes, o ingresos bajos, medios o altos. En las series de tiempo, por el 
contrario, las variables tienden a ser de órdenes de magnitud similares porque suele recopilarse 
información sobre el mismo fenómeno o hecho a lo largo de un periodo. Son ejemplos el PIB, el 
gasto de consumo, el ahorro o el empleo en Estados Unidos, por decir, de 1955 a 2005, 

A manera de ilustración sobre la heteroscedasticidad que es posible encontrar en un análisis 
de corte transversal, considere la tabla 11.1. Esta tabla presenta información sobre salarios por 
empleado en 10 industrias manufactureras de bienes no duraderos, clasificadas según el número 
de empleados de la empresa o establecimiento en 1958. En la tabla se presentan además cifras de 
productividad promedio de nueve clases de empleados. 

Aunque las industrias difieran en la composición de su producción, la tabla 11.1 muestra con 
claridad que, en promedio, las empresas grandes pagan más que las pequeñas. Como ejemplo, las 
empresas que emplean entre uno y cuatro empleados pagaron, en promedio, sueldos de alrededor de 
$3 396, mientras que las que emplean entre 1 000 y 2 499 empleados, en promedio, alrededor 
de $4 843. Pero observe que hay una gran variabilidad en los ingresos entre las diversas clases de 
empleados, como indican las desviaciones estándar estimadas de los salarios. Esto también se 


TABLA 11.1 Salario por empleado (dólares) en la industria de manufactura de bienes no duraderos, de acuerdo con el 
número de empleados del establecimiento, 1958 


Tamaño de la plantilla laboral (número promedio de empleados) 


Industria 1-4 5-9 10-19 20-49 50-99 100-249 250-499 500-999 1 000-2 499 
Alimentos y 

similares 2 994 3 295 3 565 3 907 4 189 4 486 4 676 4 968 5 342 
Productos del 

tabaco 1 721 2 057 3 336 3 320 2 980 2 848 3 072 2 969 3 822 
Productos textiles 3 600 3 657 3 674 3 437 3 340 3 334 3 225 3163 3168 
Ropa y productos 

relacionados 3 494 3 787 3 533 3215 3 030 2834 2750 2 967 3 453 
Papel y similares 3 498 3 847 3913 4135 4 445 4 885 5132 5 342 5326 
Impresión y 

publicación 3611 4 206 4 695 5 083 5 301 5 269 5182 5 395 5 552 
Productos 

químicos 

y similares 3875 4 660 4 930 5 005 5114 5 248 5 630 5 870 5876 
Productos 

petroleros 

y carboníferos 4616 5181 5317 5 337 5 421 5710 6316 6 455 6 347 
Productos de 

caucho y 

plásticos 3 538 3 984 4 014 4 287 4 221 4 539 4 721 4 905 5 481 
Cuero y productos 

de cuero 3016 3196 3149 3317 3414 3 254 3177 3 346 4 067 
Remuneración 

promedio 3 396 3 787 4 013 4 104 4146 4 241 4 388 4 538 4 843 
Desviación 

estándar 742.2 851.4 727.8 805.06 929.9 1080.6 1241.2 1 307.7 1110.7 
Productividad 

promedio 9 355 8 584 7 962 8 275 8 389 9418 9795 10 281 11 750 


Fuente: The Census of Manufacturers, U.S. Department of Commerce, 1958 (calculado por el autor). 
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FIGURA 11.6 1 400 
Desviación estándar del 
salario y salario medio. 
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aprecia en la figura 11.6, que muestra la desviación estándar de los salarios y el salario medio 
en cada clase de empleados. Como se ve claramente, en promedio, la desviación estándar de los 
salarios crece con el valor promedio de los salarios. 


Estimación por MCO en presencia de heteroscedasticidad 


¿Qué sucede con los estimadores de MCO y sus varianzas si introducimos la heteroscedasticidad 
permitiendo que E(u?) = 0? pero conservamos todos los demás supuestos del modelo clásico? 
Para responder, recuerde el modelo con dos variables: 


Y, =P + B2X; + ui 


Al aplicar la fórmula usual, el estimador de MCO de £z es 


A XiYi 
h= E 
L n} XiY; YX DY; 
= nE — TX? (11.2.1) 


pero su varianza está dada ahora por la siguiente expresión (apéndice 11A, sección 11A.1): 


BTD 
var ($2) = = (11.2.2) 
Xi 


que obviamente difiere de la fórmula usual de varianza obtenida según el supuesto de homosce- 
dasticidad, es decir, 


(11.2.3) 
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Desde luego, si o? = 0? para cada i, las dos fórmulas serán idénticas. (¿Por qué?) 

Recuerde que Ê es el mejor estimador lineal e insesgado (MELI) si se mantienen los supues- 
tos del modelo clásico, inclusive el de homoscedasticidad. ¿Seguirá siendo MELI aunque sólo 
eliminemos el supuesto de homoscedasticidad y lo reemplacemos por el de heteroscedasticidad? 
Es fácil probar que $, es aún lineal e insesgado. En realidad, como se indica en el apéndice 3A, 
sección 3A.2, para establecer el insesgamiento de $2 no es necesario que las perturbaciones 
(ui) sean homoscedásticas. En realidad, la varianza de u;, homoscedástica o heteroscedástica, no 
desempeña papel alguno en la determinación de la propiedad de insesgamiento. Recuerde que 
en el apéndice 3A, sección 3A.7, vimos que $, es un estimador consistente según los supuestos 
del modelo clásico de regresión lineal. Aunque no lo demostraremos, se puede probar que $, es 
un estimador consistente a pesar de la heteroscedasticidad; es decir, conforme el tamaño de la 
muestra se incrementa de manera indefinida, el Bf, estimado converge a su valor verdadero. Es 
más, también puede demostrarse que, en ciertas condiciones (de regulación), Êz está distribuida 
de manera asintótica y normal. Por supuesto, lo que afirmamos respecto de Ê también vale para 
otros parámetros de un modelo de regresión múltiple. 

En el supuesto de que Ê continúe siendo lineal, insesgado y consistente, ¿es “eficiente” o “el 
mejor”? Es decir, ¿tendrá varianza mínima en la clase de los estimadores lineales e insesgados? 
¿Y dicha varianza mínima estará dada por la ecuación (11.2.2)? La respuesta a ambas pregun- 
tas es no: Ba deja de ser el mejor y la varianza mínima ya no está dada por (11.2.2). Entonces, 
¿cuál estimador es MELI en presencia de heteroscedasticidad? La respuesta se da en la siguiente 
sección. 


11.3 El método de mínimos cuadrados generalizados (MCG) 


¿Por qué el estimador usual de MCO de f2 dado en (11.2.1) no es el mejor, aunque todavía sea 
insesgado? La razón se intuye en la tabla 11.1. Como se indica ahí, hay una gran variabilidad en 
los ingresos entre clases de empleados. Si efectuásemos una regresión de salarios por empleado 
sobre el tamaño de la planta laboral sería recomendable aprovechar el conocimiento de que existe 
considerable variabilidad entre los salarios de las diferentes clases. Idealmente, querríamos di- 
señar un esquema de estimación de manera que las observaciones que surgen de poblaciones 
con mayor variabilidad reciban menos peso que las que provienen de poblaciones con menor 
variabilidad. Al examinar la tabla 11.1 nos gustaría dar mayor ponderación a las observaciones 
que provienen de las clases de empleados 10-19 y 20-49 que a las clases de empleados como 
5-9 y 250-499, pues las primeras están más concentradas alrededor de sus valores medios que las 
últimas, lo que permite estimar la FRP en forma más precisa. 

Por desgracia, el método de MCO usual no sigue esta estrategia y, por consiguiente, no apro- 
vecha la “información” contenida en la variabilidad desigual de la variable dependiente Y, como 
sucede con la compensación salarial de los empleados de la tabla 11.1: este método asigna igual 
peso o importancia a cada observación. Pero existe un método de estimación, conocido como 
mínimos cuadrados generalizados (MCG), que toma en cuenta esa información explícitamente 
y, por consiguiente, es capaz de producir estimadores que son MELI. Para ver cómo se hace, 
considere el modelo ya familiar con dos variables: 


Y; = fı + b2X;i + ui (11.3.1) 
el cual, para facilitar el reordenamiento algebraico, escribimos como 
Y, = P1 Xoi + B24; + u; (11.3.2) 


donde Xo; = 1 para cada i. El lector puede ver que estas dos formulaciones son idénticas. 
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Ahora, suponga que se conocen las varianzas heteroscedásticas o. Divida ambos lados de 


(11.3.2) entre o; para obtener 
Y; Xoi Xi i 
Zoef ep (2) + (2) (11.3.3) 
Oi Oi Oi Oi 


la cual, para facilidad de exposición, escribimos como 


Y? = PiX} + BIX} + už (11.3.4) 


en donde las variables con asterisco o transformadas son las variables originales divididas entre 
a; (conocida). Utilizamos la notación 6ř y 6ž, los parámetros del modelo transformado, para 
distinguirlos de los parámetros de MCO usuales £1 y 6». 

¿Cuál es el propósito de transformar el modelo original? Para ver esto, observe la siguiente 
característica del término de error transformado u;: 


var (u*) = Eur)? = E (E 


i 


2 
) porque E(u;) = 0 


L E (u?) porque se conoce o (11.3.5) 
Oj 

= ; (97) porque E (u?) = o? 
O; 

=1 


que es una constante. Es decir, la varianza del término de perturbación transformado u; es ahora 
homoscedástica. Como aún se conservan los demás supuestos del modelo clásico, el hallazgo 
de que u* es homoscedástico sugiere que si se aplican MCO al modelo transformado (11.3.3) 
se producirán estimadores MELI. En resumen, los $; y £% estimados son ahora MELI y no los 
estimadores de MCO, ĝi y Bo. 

Este procedimiento de transformar las variables originales de forma que las variables trans- 
formadas satisfagan los supuestos del modelo clásico y de aplicar luego MCO a ellos se conoce 
como método de mínimos cuadrados generalizados (MCG). En resumen, MCG es MCO sobre 
las variables transformadas que satisfacen los supuestos estándar de mínimos cuadrados. Los 
estimadores así obtenidos se conocen como estimadores de MCG, y son estos estimadores los 
que son MELI. 

El mecanismo de estimación de Bj y P> es el siguiente. Primero escribimos la FRM de 


(11.3.3) 
Yi a [Xa\ a [Xi 7 
A) AA) 
Oi Oi Oi Oi 


Y = Êi Xi + BX + (11.3.6) 


Ahora, para obtener los estimadores de MCG, reducimos 


Dâr = O Bi, BY 


O o 


es decir, 
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El mecanismo real para minimizar (11.3.7) sigue las técnicas estándar del cálculo y se presenta 
en el apéndice 11A, sección 114.2. Como allí se muestra, el estimador de MCG de £5 es 


IA E a 


j= a (11.3.8) 
(Em) (247) - (EX) 
y su varianza está dada por 
var (š) = Lm a (11.3.9) 
(Dm) (Ev) - (EX) 
donde w; = 1/02. 
Diferencia entre MCO y MCG 
Recuerde, del capítulo 3, que en MCO reducimos 
Y= Y - Â- ÊX? (11.3.10) 


pero en MCG reducimos la expresión (11.3.7), la cual también se escribe como 
Yowi = Yw: =D m GY (11.3.11) 


donde w; = 1/0? [verifique que (11.3.11) y (11.3.7) sean idénticas]. 

Por tanto, en MCG se reduce una suma ponderada de residuos al cuadrado donde w; = 1/ 0? 
actúan como ponderación, pero en MCO se reduce la SCR sin ponderar o (lo que equivale a lo 
mismo) con ponderaciones iguales. Como muestra (11.3.7), en MCG, el peso asignado a cada 
observación es inversamente proporcional a su g;, es decir, las observaciones que provienen de 
una población con una o; más grande tendrán una ponderación relativamente menor, y las de una 
población con un g; menor tendrán una ponderación proporcionalmente mayor al reducir la SCR 
(11.3.11). Para ver claramente la diferencia entre MCO y MCG considere el diagrama hipotético 
de dispersión de la figura 11.7. 

En MCO (sin ponderar), cada ù? asociada con los puntos A, B y C recibirá el mismo peso al re- 
ducir la SCR. Obviamente, en este caso la ù? asociada al punto C dominará la SCR. Pero en MCG 
la observación extrema C obtendrá relativamente un peso menor que las otras dos observaciones. 
Como ya mencionamos, ésta es la estrategia correcta, pues para estimar la función de regresión 
poblacional (FRP) de una manera más confiable, sería deseable dar más peso a las observaciones 
agrupadas cerca de su media (poblacional) que a las que están muy dispersas a su alrededor. 

Como (11.3.11) reduce una SCR ponderada, esto se conoce apropiadamente como mínimos 
cuadrados ponderados (MCP), y los estimadores así obtenidos que aparecen en (11.3.8) y 
(11.3.9) se conocen como estimadores de MCP. Pero MCP es apenas un caso especial de la 
técnica de estimación más general, MCG. En el contexto de la heteroscedasticidad los términos 
MCP y MCG se tratan indistintamente. En capítulos posteriores veremos otros casos especiales 
de MCG. 

A propósito, observe que si w; = w, una constante para todas las į, Bi es idéntico a $, y var 
($) es idéntica a la var (2) usual (es decir, homoscedástica) dada en (11.2.3), lo cual no debe 
sorprender. (¿Por qué?) (Consulte el ejercicio 11.8.) 
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FIGURA 11.7 
Diagrama de dispersión 
hipotético. 


xC 


3, + ÊX, 


11.4 Consecuencias de utilizar MCO en presencia 


de heteroscedasticidad 


Como vimos, Bi y Ê son estimadores (lineales) insesgados: para muestreo repetido, en pro- 
medio, Bi y Ê serán iguales al verdadero 2, es decir, ambos son estimadores insesgados. Pero 
sabemos que $3 es el eficiente, es decir, tiene la menor varianza. ¿Qué sucede con los intervalos 
de confianza, las pruebas de hipótesis y con otros procedimientos si continuamos utilizando el 
estimador de MCO, 822 Se distinguen dos situaciones. 


Estimación por MCO con heteroscedasticidad 


Suponga que utilizamos Ba y la fórmula de varianza dada en (11.2.2), la cual considera explíci- 
tamente la heteroscedasticidad. Con esta varianza y la suposición de que se conocen las ož, ¿es 
posible establecer intervalos de confianza y probar hipótesis con las pruebas £ y F usuales? La 
respuesta suele ser no, pues puede demostrarse que var ($3) < var (B,),* lo cual significa que los 
intervalos de confianza basados en estos últimos serán innecesariamente grandes. Como resul- 
tado, es probable que las pruebas £ y F den resultados imprecisos en el sentido de que la var (Êz) 
es demasiado grande, y lo que parece un coeficiente estadísticamente no significativo (pues el 
valor £ es más bajo de lo apropiado), de hecho puede resultar significativo si se establecen inter- 
valos de confianza correctos con base en el procedimiento de MCG. 


Estimación por MCO sin heteroscedasticidad 


La situación se torna muy grave si, además de Ba, también se sigue utilizando la fórmula habitual 
de varianza (homoscedástica) dada en (11.2.3), aunque exista heteroscedasticidad o se sospeche 
su existencia: observe que éste es el caso más probable de los dos que aquí se analizan, pues 
al hacer una regresión estándar por MCO e ignorar (o no conocer) la existencia de la heteros- 
cedasticidad se producirá una varianza de Bo como la dada en (11.2.3). En primer lugar, la var ( Ba) 
dada en (11.2.3) es un estimador sesgado de var ( Êz) dada en (11.2.2), es decir, en promedio, ésta 


5 Una prueba formal se encuentra en Phoebus J. Dhrymes, Introductory Econometrics, Springer-Verlag, Nueva 
York, 1978, pp. 110-111. A propósito, observe que la pérdida de eficiencia de £2 [es decir, la medida en que 
excede var [£2] a var [83] depende de los valores muestrales de las variables X y del valor de of. 
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sobreestima o subestima la última y en general no se puede decir si el sesgo es positivo (sobrees- 
timación) o negativo (subestimación), pues éste depende de la naturaleza de la relación entre o? 
y los valores tomados por la variable explicativa X, como se ve claramente en (11.2.2) (véase el 
ejercicio 11.9). El sesgo surge de que ô?, el estimador convencional de o°, a saber, Y û?/(n — 2), 
deja de ser un estimador insesgado del último en presencia de heteroscedasticidad (véase el 
apéndice 11A.3). Como resultado, ya no es posible depender de los intervalos de confianza cal- 
culados convencionalmente ni de las pruebas 1 y F tradicionales. En resumen, si insistimos en 
los procedimientos de prueba usuales a pesar de la presencia de heteroscedasticidad, las 
conclusiones o inferencias que obtengamos pueden ser muy equivocadas. 

Para dar mayor claridad a este tema, veamos un estudio Monte Carlo de Davidson y MacKin- 
non.” Consideran el siguiente modelo simple, que en nuestra notación es 


Y, = bı + b2Xi + üi (11.4.1) 


Suponen que $; = 1, $2 = 1 y u; ~ N(0, X7). Como indica la última expresión, suponen que la 
varianza del error es heteroscedástica y que se relaciona con el valor de la regresora X elevado 
a la potencia œ. Si, por ejemplo, œ = 1, la varianza del error es proporcional al valor de X; si 
a = 2, la varianza del error es proporcional al cuadrado del valor de X, y así sucesivamente. En 
la sección 11.6 veremos la lógica de tal procedimiento. Basados en 20 000 repeticiones y con 
diversos valores para œ, obtienen los errores estándar de los dos coeficientes de regresión 
con MCO [consulte la ecuación (11.2.3)], MCO con heteroscedasticidad [ecuación (11.2.2)] y 
MCG [ecuación (11.3.9)]. Sus resultados para valores seleccionados de « son: 


Error estándar de Bi Error estándar de Ba 
Valor de « MCO MCOnet MCG MCO MCOhet MCG 
0.5 0.164 0.134 0.110 0.285 0.277 0.243 
1.0 0.142 0.101 0.048 0.246 0.247 0.173 
2.0 0.116 0.074 0.0073 0.200 0.220 0.109 
3.0 0.100 0.064 0.0013 0.173 0.206 0.056 
4.0 0.089 0.059 0.0003 0.154 0.195 0.017 


Nota: MCOye: significa MCO con heteroscedasticidad. 


La caracteristica más sobresaliente de estos resultados es que los MCO, con o sin corrección por 
heteroscedasticidad, sobreestiman consistentemente el verdadero error estándar obtenido me- 
diante el procedimiento (correcto) de MCG, en especial para valores grandes de a, con lo cual se 
establece la superioridad de MCG. Estos resultados también muestran que si no se utilizan MCG 
y se depende de MCO —permitiendo o no la heteroscedasticidad—, el resultado es una mezcla. 
Los errores estándar de MCO convencionales son muy grandes (para el intercepto) o general- 
mente muy bajos (para el coeficiente de la pendiente) en relación con los obtenidos por MCO 
que permite la heteroscedasticidad. El mensaje es claro: ante la presencia de heteroscedasticidad, 
utilice MCG. Sin embargo, por razones explicadas más adelante en el capítulo, en la práctica no 
siempre es fácil aplicar MCG. Asimismo, como veremos más adelante, a menos que la heterosce- 
dasticidad sea muy grave, no se abandonarían los MCO en favor de los MCG o de los MCP. 

Por el análisis anterior, es claro que la heteroscedasticidad es un problema potencialmente 
grave y el investigador debe saber si está presente en una situación dada. Si detecta su presen- 


6 De (5.3.6) sabemos que el intervalo de confianza a 100(1 — œ)% para £2 es [$2 + a /2 ee (Ê2)]. Pero, si 
ee ($2) no puede estimarse en forma insesgada, ¿qué confianza se puede tener en el intervalo de confianza 
calculado convencionalmente? 


7 Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford University Press, 
Nueva York, 1993, pp. 549-550. 
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cia, puede tomar acciones correctivas, como una regresión de mínimos cuadrados ponderados o 
alguna otra técnica. Sin embargo, antes de examinar los procedimientos correctivos, es preciso 
averiguar si hay heteroscedasticidad o si es probable en un caso dado. Analizamos este tema en 
la siguiente sección. 


Nota técnica 

Aunque ya establecimos que, en caso de heteroscedasticidad, son los MCG y no los MCO los que 
son MELI, existen ejemplos en los que los MCO pueden ser MELI a pesar de la heteroscedasti- 
cidad.* No obstante, dichos casos son poco frecuentes en la práctica. 


Detección de la heteroscedasticidad 


Como con la multicolinealidad, para efectos prácticos la pregunta importante es ¿cómo saber 
que hay heteroscedasticidad en una situación específica? De nuevo, como en la multicolineali- 
dad, no existen reglas precisas y rápidas para detectar la heteroscedasticidad, sólo algunas reglas 
prácticas. Pero esta situación es inevitable porque o? solamente puede conocerse si se tiene toda 
la población Y, correspondiente a las X seleccionadas, como la población presentada en la tabla 
2.1 o en la tabla 11.1. Pero tal información es una excepción más que la regla en la mayoría de 
las investigaciones económicas. Al respecto, el econometrista difiere de los científicos en campos 
como agricultura y biologia, donde los investigadores tienen gran parte del control sobre sus 
temas. En los estudios de economía, es frecuente que sólo haya un valor muestral Y correspon- 
diente a un valor particular de X. Por consiguiente, no hay forma de conocer o? a partir de una 
sola observación Y. Así, en la mayoría de las investigaciones econométricas, la heteroscedastici- 
dad puede ser un asunto de intuición, de conjeturas refinadas, de un trabajo basado en experiencia 
empírica previa o de pura especulación. 

Tras la advertencia anterior, podemos examinar algunos métodos informales y formales para 
detectar la heteroscedasticidad. Como revelará el siguiente análisis, la mayoría de estos métodos 
se basan en el examen de los residuos 4; de MCO, pues son éstos los que se observan y no las 
perturbaciones u;. Se espera que ù; sean buenas estimaciones de u;, esperanza que se cumple si el 
tamaño de la muestra es lo bastante grande. 


Métodos informales 
Naturaleza del problema 


Con mucha frecuencia la naturaleza del problema en consideración sugiere la posibilidad de he- 
teroscedasticidad. Por ejemplo, a partir del trabajo pionero de Prais y Houthakker sobre estudios 
de presupuesto familiar, en el cual hallaron que la varianza residual correspondiente a la regre- 
sión del consumo sobre el ingreso aumentaba con el ingreso, hoy en día generalmente se supone 
que en encuestas similares se pueden esperar varianzas desiguales entre las perturbaciones.? De 
hecho, en la información de corte transversal que comprende unidades heterogéneas, la hete- 
roscedasticidad puede ser la regla y no la excepción. Así, en el análisis de corte transversal que 
relaciona el gasto de inversión con las ventas, la tasa de interés, etc., suele esperarse la presencia 
de heteroscedasticidad si se agrupan empresas pequeñas, medianas y grandes. 


8 La razón reside en que el teorema de Gauss-Markov proporciona la condición suficiente (pero no necesa- 
ria) para que los MCO sean eficientes. La condición suficiente y necesaria para que los MCO sean MELI la 
establece el teorema de Kruskal. Pero este tema está más allá del alcance de este libro. El autor está en 
deuda con Michael McAleer por notar esto. Para mayores detalles, véase Denzil G. Fiebig, Michael McAleer 
y Robert Bartels, “Properties of Ordinary Least Squares Estimators in Regression Models with Nonspherical 
Disturbances”, Journal of Econometrics, vol. 54, núm. 1-3, octubre-diciembre de 1992, pp. 321-334. Para los 
estudiantes con inclinaciones matemáticas, analizo este tema en más detalle en el apéndice C con álgebra 
matricial. 


2 S.J. Prais y H.S. Houthakker, The Analysis of Family Budgets, Cambridge University Press, Nueva York, 1955. 


FIGURA 11.8 
Patrones hipotéticos de 
los residuos estimados al 
cuadrado. 
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De hecho, ya presentamos ejemplos de lo anterior. En el capítulo 2 analizamos la relación 
entre los salarios medios o promedios por hora en relación con los años de escolaridad en Estados 
Unidos. En este capítulo también examinamos la relación entre el gasto en alimentos y el gasto 
total de 55 familias en India (ejercicio 11.16). 


Método gráfico 

Si no hay información a priori o empírica sobre la naturaleza de la heteroscedasticidad, en la 
práctica se puede llevar a cabo un análisis de regresión con el supuesto de que no hay heterosce- 
dasticidad y luego hacer un examen post mortem de los residuos elevados al cuadrado, ù?, para 
ver si exhiben algún patrón sistemático. Aunque los 2? no son lo mismo que los u?, los primeros 
sirven como representantes de los últimos sobre todo si el tamaño de la muestra es lo bastante 
grande.! Un examen de los 2? puede revelar patrones como los de la figura 11.8. 

En la figura 11.8 se grafican los û? frente a los Y;, que son los Y; estimados mediante la línea 
de regresión, con la idea de averiguar si el valor medio estimado de Y está relacionado sistemá- 
ticamente con el residuo al cuadrado. En la figura 11.8a) se ve que no hay un patrón sistemático 
entre las dos variables, lo cual sugiere que tal vez no haya heteroscedasticidad en los datos. Sin 
embargo, las figuras 11.8b) a 11.8e) muestran patrones definidos. Por ejemplo, la figura 11.8c) 
sugiere una relación lineal, mientras que las figuras 11.8d) y 11.8e) indican una relación cua- 
drática entre ù? y Y;. Con tal conocimiento, aunque informal, es posible transformar los datos de 
manera que, una vez transformados, no presenten heteroscedasticidad. En la sección 11.6 exami- 
naremos transformaciones de este tipo. 

En lugar de graficar los ù? frente a los Y,, se pueden graficar frente a una de las variables expli- 
cativas, en especial si el gráfico de 2? frente a Y; presenta un patrón como el de la figura 11.84). 
Tal gráfico, que aparece en la figura 11.9, puede revelar patrones similares a los de la figura 11.8. 
(En el caso del modelo con dos variables, el gráfico de ĉ? frente a los Y; equivale a graficar el 


Rx) 


10 Respecto de la relación entre û; y u; véase E. Malinvaud, Statistical Methods of Econometrics, North 
Holland, Amsterdam, 1970, pp. 88-89. 
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FIGURA 11.9 
Diagrama de dispersión 
de los residuos estimados 
al cuadrado frente a X. 
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d) 


primero frente a X;, razón por la cual la figura 11.9 es similar a la 11.8. Pero ésta no es la situación 
cuando se considera un modelo con dos o más variables X; en este caso, ù? puede graficarse frente 
a cualquier variable X incluida en el modelo.) 

Un patrón como el de la figura 11.9c), por ejemplo, sugiere que la varianza del término de 
perturbación se relaciona linealmente con la variable X. Así, si en la regresión de ahorro sobre 
ingreso se encuentra un patrón como el de la figura 11.9c), éste sugiere que la varianza heteros- 
cedástica puede ser proporcional al valor de la variable ingreso. Saber esto puede contribuir a 
transformar los datos de manera que, en la regresión sobre los datos transformados, la varianza 
de las perturbaciones sea homoscedástica. Trataremos este tema en la siguiente sección. 


Métodos formales 
Prueba de Park!" 
Park formaliza el método gráfico con la sugerencia de que o? es algún tipo de función de la va- 


riable explicativa X;. La forma funcional fue 


o? = o? Xf e 


Ino? = Ino? + £ ln X; + v; (11.5.1) 


donde v; es el término de perturbación estocástico. 


11 R.E. Park, “Estimation with Heteroscedastic Error Terms”, Econometrica, vol. 34, núm. 4, octubre de 1966, 
p. 888. La prueba de Park es un caso especial de la prueba general propuesta por A. C. Harvey en “Estima- 
ting Regression Models with Multiplicative Heteroscedasticity”, Econometrica, vol. 44, núm. 3, 1976, 

pp. 461-465. 
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2 


i 


Como 0? por lo general no se conoce, Park sugiere utilizar û 
siguiente regresión: 


como aproximación y correr la 


Inú? = Ino? + ln X; + vi 


(11.5.2) 
=0a+BlnX; + vi 


Si £ resulta estadísticamente significativo, esto sugerirá heteroscedasticidad en los datos. Si re- 
sulta no significativo, podemos aceptar el supuesto de homoscedasticidad. La prueba de Park es, 
por tanto, un procedimiento de dos etapas. En la primera se efectúa la regresión MCO ignorando 
el interrogante de la heteroscedasticidad. Se obtiene ú; de esta regresión y luego, en la segunda 
etapa, se efectúa la regresión (11.5.2). 

Aunque empíricamente la prueba de Park es atractiva, presenta algunos problemas. Goldfeld 
y Quandt argumentan que el término de error v; que entra en (11.5.2) puede no satisfacer los su- 
puestos de MCO y en sí mismo ser heteroscedástico.'? No obstante, es posible utilizar la prueba 
de Park como método estrictamente exploratorio. 


EJEMPLO 11.1 
Relación entre sala- 
rios y productividad 


Para ilustrar el enfoque de Park, con la información de la tabla 11.1 efectuamos la siguiente 
regresión: 


Y; = B1 + B2X¡ +U; 


donde Y = salario promedio en miles de dólares, X = productividad promedio en miles de dó- 
lares e i = ¡-ésimo de la planta laboral del establecimiento. Los resultados de la regresión fueron 
los siguientes: 


Y, = 1992.3452 + 0.2329X; 
ee = (936.4791) (0.0998) (11.5.3) 
=P C35) R? = 0.4375 


Los resultados revelan que el coeficiente de pendiente estimado es significativo en el nivel de 
5% con base en una prueba t de una cola. La ecuación muestra que, a medida que aumenta la 
productividad laboral, por ejemplo, en un dólar, el salario aumenta, en promedio, alrededor de 
23 centavos de dólar. 

En los residuos obtenidos de la regresión (11.5.3) se hizo la regresión sobre X; como lo su- 
giere la ecuación (11.5.2), con los siguientes resultados: 


In ûô2 = 35.817 — 2.8099 In X; 
ee = (38.319) (4.216) (11.5.4) 
t= (0.934) (-0.667) R? = 0.0595 


Obvio, no hay una relación estadísticamente significativa entre ambas variables. Según la prueba 
de Park, se puede concluir que no hay heteroscedasticidad en la varianza del error.!* 


Prueba de Glejser!* 


La prueba de Glejser en esencia es similar a la de Park. Después de obtener los residuos ĉ; de la 
regresión MCO, Glejser sugiere una regresión sobre los valores absolutos de ù; sobre la variable 


12 Stephen M. Goldfeld y Richard E. Quandt, Nonlinear Methods in Econometrics, North Holland, Amsterdam, 
1972, pp. 93-94. 

13 La forma funcional particular seleccionada por Park es sólo una sugerencia. Una forma funcional diferente 
revela relaciones significativas. Por ejemplo, se puede utilizar 1? en lugar de In â? como variable depen- 
diente. 


14 H. Glejser, “A New Test for Heteroscedasticity”, Journal of the American Statistical Association, vol. 64, 
1969, pp. 316-323. 
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X que se cree muy asociada con of. En sus experimentos, Glejser utilizó las siguientes formas 
funcionales: 


U;l = bi + B2X; + vi 


üi = bi + bV X; + vi 

a 1 

Ui = B1+ Br +0 
1 

VX; 

ûil =Y Br + 2X; + vi 


ûil = y fı + BX? + vi 
donde v; es el término de error. 


De nuevo, como un asunto empírico o práctico, se puede utilizar el método de Glejser. Sin 
embargo, Goldfeld y Quandt señalan que el término de error v; tiene algunos problemas, pues 
su valor esperado es diferente de cero, está serialmente correlacionado (véase el capítulo 12) e 
irónicamente es heteroscedástico.! Otra dificultad del método Glejser es que los modelos como 


(2,1 = Y Br + b2X; + vi 


[2,1 = y B1 + 62X? + vi 


no son lineales en los parámetros y, por consiguiente, no pueden estimarse mediante el procedi- 
miento de MCO habitual. 

Glejser descubrió que para muestras grandes, los cuatro primeros modelos suelen dar resul- 
tados satisfactorios en la detección de la heteroscedasticidad. En la práctica, por consiguiente, 
la técnica de Glejser es útil para muestras grandes, y en muestras pequeñas sirve estrictamente 
como herramienta cualitativa para obtener una noción sobre la heteroscedasticidad. 


ul = B1 + b2 +v 


EJEMPLO 11.2 
Relación entre el 
salario y la produc- 
tividad: prueba de 
Glejser 


Aún con el ejemplo 11.1, se hizo la regresión del valor absoluto de los residuos obtenidos de la 
regresión (11.5.3) sobre la productividad promedio (X), lo cual dio los siguientes resultados: 


= L 0O 
ee = (633.1621) (0.0675) r2 = 0.0127e (11.5.5) 
t= (0.6432) (-0.3012) 


Como se aprecia de esta regresión, no hay relación entre el valor absoluto de los residuos y la 
regresora, la productividad promedio. Lo anterior refuerza la conclusión basada en la prueba 
de Park. 


Prueba de correlación de orden de Spearman 
En el ejercicio 3.8 definimos el coeficiente de correlación de orden de Spearman como 


n=1-6 247] 


ED (11.5.6) 


15 Véanse detalles en Goldfeld y Quandt, op. cit., capítulo 3. 
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donde d; = la diferencia en las posiciones o lugares asignados al ¿-ésimo individuo o fenómeno 
respecto de dos características y n = número de individuos o fenómenos ordenados. Con el 
coeficiente de correlación de orden anterior se detecta heteroscedasticidad de la siguiente ma- 
nera: Suponga que Y, = Bo + 1X; + ui. 

Paso 1. Ajuste la regresión a los datos sobre Y y X, y obtenga los residuos ù;. 

Paso 2. Ignore el signo de û;, es decir, tome su valor absoluto |% |, y ordene los valores |ĉ;| 

y X; (o Y;) de acuerdo con un orden ascendente o descendente, y calcule el coeficiente de 

correlación de orden de Spearman dado antes. 

Paso 3. Si supone que el coeficiente poblacional de correlación de orden p, es cero y n > 8, 


la significancia del r, muestral se prueba mediante la prueba £ de la siguiente manera: !% 


qa DE (11.5.7) 


con gl =n — 2. 


Si el valor £ calculado excede el valor £ crítico, podemos aceptar la hipótesis de heteroscedas- 
ticidad; de lo contrario, podemos rechazarla. Si el modelo de regresión considera más de una 
variable X, r, se calcula entre |ĉ;| y cada variable X por separado, y la significancia estadística se 
somete a la prueba £ dada en la ecuación (11.5.7). 


EJEMPLO 11.3 
Ilustración de la 
prueba de correla- 
ción de orden 


Para ilustrar la prueba de correlación de orden, considere los datos de la tabla 11.2, que corres- 
ponden al rendimiento anual promedio (E, %) y la desviación estándar del rendimiento anual 
(0;,%) de 10 fondos de inversión. 


TABLA 11.2 Prueba de correlación de orden para heteroscedasticidad 


E; Oi, d, 
rendimiento desviación diferencia 
promedio estándar del Jâl*, Orde- Orde- entre las 
Nombre del fondo anual, rendimiento x residuos nación nación dos orde- 
mutualista % anual, % Ef  \(Œ&-Ê)| deļû| deoi naciones d? 
Boston Fund 12.4 12.1 11.37 1.03 9 4 5 25 
Delaware Fund 14.4 21.4 15.64 1.24 10 9 1 1 
Equity Fund 14.6 18.7 14.40 0.20 4 7 -3 9 
Fundamental Investors 16.0 21.7 15.78 0.22 5 10 -5 25 
Investors Mutual 11.3 125 11.56 0.26 6 5 1 1 
Loomis-Sales Mutual Fund 10.0 10.4 10.59 0.59 7 2 5 25 
Massachusetts Investors Trust 16.2 20.8 15.37 0.83 8 8 (0) (0) 
New England Fund 10.4 10.2 10.50 0.10 3 1 2 4 
Putnam Fund of Boston 13.1 16.0 13.16 0.06 2 6 —4 16 
Wellington Fund 11.3 12.0 11.33 0.03 1 3 -2 4 
Total 0 110 
T Obtenido de la regresión: Êi = 5.8194 + 0.4590 Oi. 
ł Valor absoluto de los residuales. 
Nota: La ordenación de valores es ascendente. 
(continúa) 


16 Véase G. Udny Yule y M.G. Kendall, An Introduction to the Theory of Statistics, Charles Griffin £ Company, 
Londres, 1953, p. 455. 
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EJEMPLO 11.3 


(continuación) 


La línea del mercado de capitales (LMC) de la teoría de portafolios postula una relación lineal 
entre el rendimiento esperado (E; y el riesgo (como se mide mediante la desviación estándar, o) 
de un portafolio, de la siguiente manera: 


E¡ = Bi + B20 


Con los datos de la tabla 11.2 se estimó el modelo anterior, a partir del cual se calcularon los 
residuos. Como los datos se relacionan con 10 fondos mutualistas de distintos tamaños y metas 
de inversión, se podría esperar a priori que hubiera heteroscedasticidad. Para probar esta hipó- 
tesis, aplicamos la prueba de correlación de orden. Los cálculos necesarios se proporcionan en 
la tabla 11.2. 

Con la fórmula (11.5.6) obtenemos 


110 
s=1- ram (11.5.8) 
= 0.3333 
Con la prueba t dada en (11.5.7) obtenemos 
0.33331(vV8 
EOS (11.5.9) 
y 1= 0.1110 


= 0 


Para 8 gl, este valor t no es significativo ni siquiera en el nivel de significancia de 10%; el valor p 
es 0.17. Por tanto, no hay evidencia de una relación sistemática entre la variable explicativa y los 
valores absolutos de los residuos, lo cual sugeriría que no hay heteroscedasticidad. 


Prueba de Goldfeld-Quandt"” 


Este popular método es aplicable si se supone que la varianza heteroscedástica, oĉ, está relacio- 
nada positivamente con una de las variables explicativas en el modelo de regresión. Por simplici- 
dad, considere el modelo usual con dos variables: 


Y, = pı + B24; + ui 
Suponga que 0? está relacionado positivamente con X;, en la forma 
a=X (11.5.10) 


donde 0? es una constante.!* 

El supuesto (11.5.10) postula que o? es proporcional al cuadrado de la variable X. En su estu- 
dio de presupuestos familiares, Prais y Houthakker encontraron muy útil ese supuesto. (Véase la 
sección 11.5, métodos informales.) 

Si (11.5.10) es la relación apropiada, significaría que 0? sería mayor mientras mayores fueran 
los valores de X;. Si éste resulta ser el caso, es muy probable que haya heteroscedasticidad en el 
modelo. Para probar esto explícitamente, Goldfeld y Quandt sugieren los siguientes pasos: 


Paso 1. Ordene las observaciones de acuerdo con los valores de X;, a partir del valor más 
bajo de X. 


Paso 2. Omita las c observaciones centrales, donde c se especificó a priori, y divida las ob- 
servaciones restantes (n — c) en dos grupos, cada uno de (n — c)/2 observaciones. 


Paso 3. Ajuste regresiones MCO separadas a las primeras (n — c)/2 observaciones y a las 
últimas (n — c)/2 observaciones, y obtenga las respectivas sumas de cuadrados residuales 


17 Goldfeld y Quanat, op. cit., capítulo 3. 


18 Éste es sólo un supuesto plausible. En realidad lo que se requiere es que o? esté monotónicamente relacio- 
nada con X;. 
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SCR; y SCR>; SCR; representa la SCR de la regresión correspondiente a los valores más 
bajos de X; (el grupo de varianza pequeña), y SCR>, a los valores más grandes de X; (el 
grupo de varianza grande). Cada SCR tiene 


— —c— 2k 
et o 6 z Ja 


donde k es el número de parámetros que deben estimarse, inclusive el intercepto. (¿Por qué?) 
Sin duda, para el caso de dos variables, k es 2. 


Paso 4. Calcule la razón 


SCR>/gl 
ER 2/8 


= 11.5.11 
SCR: /gl ( ) 


Si supusimos que las u; están normalmente distribuidas (lo cual suele hacerse), y si el su- 
puesto de homoscedasticidad es válido, entonces se demuestra que A de (11.5.10) sigue la 
distribución F con un número de gl en el numerador y uno en el denominador iguales a 
(n — c — 2k)/2. 


Si en una aplicación 4 (= F) calculada es superior al F crítico en el nivel de significancia se- 
leccionado, podemos rechazar la hipótesis de homoscedasticidad, es decir, podemos afirmar que 
la heteroscedasticidad es muy probable. 

Antes de ilustrar la prueba, conviene explicar la omisión de las observaciones centrales c. 
Estas observaciones se omiten para agudizar o acentuar la diferencia entre el grupo de varianza 
pequeña (es decir, SCR¡) y el grupo de varianza grande (es decir, SCR>). Pero la capacidad de 
la prueba Goldfeld-Quandt para lograrlo depende de la forma de seleccionar c.!? Para el modelo 
con dos variables, los experimentos Monte Carlo realizados por Goldfeld y Quandt sugieren que 
c sea alrededor de 8 si el tamaño de la muestra es alrededor de 30, y alrededor de 16 si el tamaño 
de la muestra es alrededor de 60. Sin embargo, Judge et al., encontraron satisfactorios en la prác- 
tica los niveles de c = 4 si n = 30 y c= 10 si n es alrededor de 60.2% 

Antes de proseguir, cabe notar que, en caso de que haya más de una variable X en el modelo, el 
ordenamiento de las observaciones, que es el primer paso en la prueba, puede hacerse de acuerdo 
con cualquiera de ellas. Por tanto, en el modelo: Y; = 61 + B2X2; + B3X3¡ + BaXa; + u; se pueden 
ordenar los datos de acuerdo con cualquiera de estas X. Si, a priori, no hay seguridad sobre cuál 
variable X es la adecuada, realice la prueba sobre cada variable X o aplique la prueba de Park, por 
turnos, sobre cada X. 


EJEMPLO 11.4 
La prueba de 
Goldfeld-Quandt 


Para ilustrar la prueba de Goldfeld-Quandt presentamos en la tabla 11.3 información sobre el 
gasto de consumo en relación con el ingreso de una muestra transversal de 30 familias. Suponga 
que postulamos que el gasto de consumo está relacionado linealmente con el ingreso pero que 
hay heteroscedasticidad en los datos. Postulamos además que la naturaleza de la heterosce- 
dasticidad es como la de (11.5.10). En la tabla 11.3 presentamos también el reordenamiento 
necesario de los datos para aplicar la prueba. 

Al eliminar las 4 observaciones del medio, las regresiones de MCO basadas en las primeras 13 
observaciones y en las últimas 13, y sus sumas de cuadrados residuales asociadas se presentan a 
continuación (los errores estándar se indican entre paréntesis). 

(continúa) 


19 Técnicamente, la potencia de la prueba depende de la forma de seleccionar c. En estadística, la potencia 
de una prueba se mide por la probabilidad de rechazar la hipótesis nula cuando ésta es falsa [es decir, 

1 — Prob(error tipo I1)]. Aquí la hipótesis nula es que las varianzas de los dos grupos son las mismas, es decir, 
que hay homoscedasticidad. Para mayor análisis, véase M. M. Ali y C. Giaccotto, “A Study of Several New 
and Existing Tests for Heteroscedasticity in the General Linear Model”, Journal of Econometrics, vol. 26, 1984, 
pp. 355-373. 


20 George G. Judge, R. Carter Hill, William E. Griffiths, Helmut Lútkepohl y Tsoung-Chao Lee, Introduction to 
the Theory and Practice of Econometrics, John Wiley & Sons, Nueva York, 1982, p. 422. 
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EJEMPLO 11.4 


(continuación) 


TABLA 11.3 Datos hipotéticos sobre el gasto de consumo Y($) y el ingreso X($) para ilustrar 


la prueba de Goldfeld-Quandt 


Datos ordenados de acuerdo 
con los valores X 


Y X Y X 
55 80 55 80 
65 100 70 85 
70 85 75 90 
80 110 65 100 
79 120 74 105 
84 115 80 110 
98 130 84 115 
95 140 79 120 
90 125 90 125 
75 90 98 130 
74 105 95 140 
110 160 108 145 
113 150 113 150 
125 165 110 160 
108 145 125 165 | 4 observaciones 
115 180 115 180 | del medio 
140 225 130 185 
120 200 135 190 
145 240 120 200 
130 185 140 205 
152 220 144 210 
144 210 152 220 
175 245 140 225 
180 260 137 230 
135 190 145 240 
140 205 175 245 
178 265 189 250 
191 270 180 260 
137 230 178 265 
189 250 191 270 
Regresión basada en las primeras 13 observaciones: 
Ý; = 3.4094 + 0.6968X; 
(8.7049) (0.0744) SCR¡ = 377.17 gl = 11 
Regresión basada en las últimas 13 observaciones: 
Y; = — 28.0272 + 0.7941X; 
(30.6421) (0.1319) r? = 0.7681 SORA ONS ell = 111 


De estos resultados obtenemos 
__ SCR2/gl  1536.8/11 


= SCRı/gl AN 


à = 4.07 


El valor F crítico para 11 gl en el numerador y 11 gl en el denominador en el nivel de 5% es 
2.82. Como el valor F(= 1.) estimado excede al valor crítico, podemos concluir que hay heteros- 
cedasticidad en la varianza del error. Sin embargo, si el nivel de significancia se fija en 1%, no 
podemos rechazar el supuesto de homoscedasticidad. (¿Por qué?) Observe que el valor p de la 


à observada es 0.014. 
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Prueba Breusch-Pagan-Godfrey?! 


El éxito de la prueba de Goldfeld-Quandt depende no sólo del valor de c (el número de observa- 
ciones centrales que se van a omitir), sino también de la identificación de la variable X correcta 
que servirá de referencia para ordenar las observaciones. Esta limitación de la prueba se evita si 
consideramos la prueba Breusch-Pagan-Godfrey (BPG). 

Para ilustrar esta prueba, considere el modelo de regresión lineal con k variables 


Y; = Pı + BoXo +++ bkXki + Ui (11.5.12) 
Suponga que la varianza del error 0? se describe como 
of = f(01+0Z3 +---+0mZmi) (11.5.13) 


es decir, 0? es algún tipo de función de las variables Z no estocásticas; alguna de las X o todas 
ellas pueden servir como Z. Específicamente, suponga que 


07 =01 +09Z3 +-**+0mZmi (11.5.14) 


es decir, 0? es una función lineal de las Z. Si v, = 043 = - + - = 0 = 0, 0? = (11, que es una cons- 
tante. Por consiguiente, para probar si ož es homoscedástica, se puede probar la hipótesis de que 
07 = 03 = - - - = 0 = 0. Esta es la idea básica de la prueba Breusch-Pagan. El procedimiento es 


el siguiente. 


Paso 1. Estime (11.5.12) mediante MCO y obtenga los residuos 31, û2, ..., Un: 


Paso 2. Obtenga 5? = » 2? /n. Recuerde, del capítulo 4, que éste es el estimador de 
máxima verosimilitud (MV) de o°. [Nota: El estimador de MCO es Y` 2? /[n — k].] 


Paso 3. Construya las variables p; definidas como 
pi = 0? / g? 
que es simplemente cada residuo elevado al cuadrado dividido entre &?. 
Paso 4. Haga la regresión de los p; así construidos sobre las Z como 
Pi¡=01+0Za +-+- + AmZmi + Vi (11.5.15) 


donde v; es el término de residuo para esta regresión. 
Paso 5. Obtenga la SCE (suma de cuadrados explicada) de (11.5.15) y defina 


e = (SCE) (11.5.16) 


Si suponemos que los u; están normalmente distribuidos, se demuestra que sí hay homosce- 
dasticidad, y si el tamaño n de la muestra aumenta indefinidamente, entonces 


O~ XZ (11.5.17) 
es decir, © sigue una distribución ji cuadrada con (m — 1) grados de libertad. (Nota: asin 
significa asintóticamente.) 


217, Breusch y A. Fagan, “A Simple Test for Heteroscedasticity and Random Coefficient Variation”, Econo- 
metrica, vol. 47, 1979, pp. 1287-1294. Véase también L. Godfrey, “Testing for Multiplicative Heteroscedas- 
ticity”, Journal of Econometrics, vol. 8, 1978, pp. 227-236. Debido a la similitud, estas pruebas se conocen 
como pruebas de heteroscedasticidad Breusch-Pagan-Godfrey. 
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Por consiguiente, si en una aplicación el O (= xô) calculado excede al valor crítico x? en 
el nivel de significancia seleccionado, se rechaza la hipótesis de homoscedasticidad; de lo 
contrario, no se rechaza. 


El lector puede preguntar por qué la prueba BPG elige 5 SCE como estadístico de prueba. El 
razonamiento es un poco complicado y se deja para consultar en las referencias.?? 


EJEMPLO 11.5 

La prueba Breusch- 
Pagan-Godfrey 
(BPG) 


A manera de ejemplo, reconsidere la información (tabla 11.3) para ilustrar la prueba de he- 
teroscedasticidad de Goldfeld-Quandt. Al efectuar la regresión de Y sobre X, obtenemos lo 
siguiente: 


Paso 1. 

Y; = 9.2903 + 0.6378X; 

ee = (5.2314) (0.0286) SCR = 2 361.153  R?= 0.9466 (11.5.18) 
Paso 2. 

õ? = Y A = 2 361.153/30 = 78.7051 


Paso 3. Divida los residuos û; obtenidos de la regresión (11.5.18) entre 78.7051 para cons- 
truir la variable p,. 


Paso 4. Si supone que las p; están relacionadas linealmente con X; (= Z), como lo establece 
(11.5.14), obtenemos la regresión 


P; = -0.7426 + 0.0101X; 


ee = (0.7529) (0.0041) SCE = 10.4280 R2 = 0.18 (11.5.19) 
Paso 5. 
O= Z(5cE) = 5.2140 (11.5.20) 


Con los supuestos de la prueba BPG, © en (11.5.20) sigue asintóticamente la distribución ji 
cuadrada con 1 gl. [Nota: sólo hay una regresora en (11.5.19).] Ahora, de la tabla ji cuadrada 
vemos que, para 1 gl, el valor crítico de ji cuadrada en 5% es 3.8414, y el valor x? crítico en 
1% es 6.6349. Por tanto, el valor observado ji cuadrada de 5.2140 es significativo en el nivel de 
significancia de 5% pero no en el nivel de 1%. Por consiguiente, llegamos a la misma conclusión 
obtenida mediante la prueba Goldfeld-Quandt. Pero tenga en mente que, en estricto sentido, 
la prueba BPG es asintótica o de muestras grandes, y en el ejemplo presente, la muestra de 30 
observaciones puede no ser una muestra grande. Debe señalarse también que, en muestras 
pequeñas, la prueba es sensible al supuesto de que las perturbaciones u; están normalmente dis- 
tribuidas. Desde luego, podemos probar el supuesto de normalidad con las pruebas analizadas 
en el capítulo 5.23 


Prueba general de heteroscedasticidad de White 


A diferencia de la prueba de Goldfeld-Quandt, que requiere reordenar las observaciones respecto 
de la variable X que supuestamente ocasiona la heteroscedasticidad, o de la prueba BGP, sensible 
al supuesto de normalidad, la prueba general de heteroscedasticidad propuesta por White no se 


22 Véase Adrian C. Darnell, A Dictionary of Econometrics, Edward Elgar, Cheltenham, Reino Unido, 1994, 
pp. 178-179. 

23 Al respecto, véase R. Koenker, “A Note on Studentizing a Test for Heteroscedasticity”, Journal of Econo- 
metrics, vol. 17, 1981, pp. 1180-1200. 
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apoya en el supuesto de normalidad y es fácil aplicarla.?* Como ilustración de la idea básica, 
considere el siguiente modelo de regresión con tres variables (la generalización al modelo con k 
variables es sencilla): 


Y, = bı + P2Xo; + B3X3¡ + ui (11.5.21) 


Para realizar la prueba de White se procede de la siguiente forma: 


Paso 1. Dada la información, estime (11.5.21) y obtenga los residuos ú;. 
Paso 2. Efectúe la siguiente regresión (auxiliar): 


ù? = a1 +09X3 +09 X3 + 04X%, + 05X3, + 06X 7; Xy, + vi 
(11.5.22)2 


Es decir, con el cuadrado de los residuos de la regresión original se hace la regresión 
sobre las variables o regresoras X originales, sobre sus valores al cuadrado y sobre el (los) 
producto(s) cruzado(s) de las regresoras. También pueden introducirse potencias más altas 
de las regresoras. Observe que hay un término constante en esta ecuación, aunque la regre- 
sión original puede o no contenerlo. Obtenga R? de esta regresión (auxiliar). 


Paso 3. Según la hipótesis nula de que no hay heteroscedasticidad, puede demostrarse que 
el tamaño de la muestra (n) multiplicado por R? obtenido de la regresión auxiliar asintótica- 
mente sigue la distribución ji cuadrada con gl igual al número de regresoras (sin el término 
constante) en la regresión auxiliar. Es decir, 

Rea (11.5.23) 
donde los gl son iguales a los definidos antes. En el ejemplo, hay 5 gl porque hay 5 regreso- 
ras en la regresión auxiliar. 


Paso 4. Si el valor ji cuadrada obtenido en (11.5.23) excede al valor ji cuadrada crítico en el 
nivel de significancia seleccionado, la conclusión es que hay heteroscedasticidad. Si éste no 

excede el valor ji cuadrada crítico, no hay heteroscedasticidad, lo cual quiere decir que en la 
regresión auxiliar (11.5.22), v, = 03 = 4 = 05 = &6 = 0 (véase la nota 25). 


EJEMPLO 11.6 
Prueba de heteros- 
cedasticidad de 
White 


Con información de corte transversal de 41 países, Stephen Lewis estimó el siguiente modelo 
de regresión:?* 


In Y; = B1 + 62 |n X2i + B3 ln X3i + ui (11.5.24) 


donde Y = razón entre impuestos arancelarios (impuestos sobre importaciones y exportaciones) 
y ganancias totales del gobierno, X2 = razón entre la suma de exportaciones e importaciones y 
el PNB, X3 = PNB per cápita, y In representa el logaritmo natural. Sus hipótesis fueron que Y 
y X2 estarían relacionadas positivamente (a mayor volumen de comercio exterior, mayor re- 


(continúa) 


24 H, White, “A Heteroscedasticity Consistent Covariance Matrix Estimator and a Direct Test of Heteroscedas- 


ticity”, Econometrica, vol. 48, 1980, pp. 817-818. 


25 El supuesto de que la varianza del error u; oê, se relaciona funcionalmente con las regresoras, con sus va- 


lores al cuadrado y con sus productos cruzados está implícito en este procedimiento. Si todos los coeficien- 
tes parciales de pendiente en esta regresión son simultáneamente iguales a cero, entonces la varianza del 
error es homoscedástica e igual a la constante a. 


26 Stephen R. Lewis, “Government Revenue from Foreign Trade”, Manchester School of Economics and Social 
Studies, vol. 31, 1963, pp. 39-47. 
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EJEMPLO 11.6 


(continuación) 


caudo arancelario), y que Y y X3 estarían negativamente relacionados (a medida que aumenta 
el ingreso, al gobierno se le facilita recaudar impuestos directos —es decir, el impuesto sobre la 
renta— que depende de los impuestos sobre el comercio exterior). 

Los resultados empíricos apoyaron las hipótesis. Para el propósito, el punto importante es 
averiguar si hay heteroscedasticidad en los datos. Como los datos son de corte transversal e 
implican una heterogeneidad de países, podemos esperar a priori heteroscedasticidad en la va- 
rianza del error. Con la prueba de heteroscedasticidad de White en los residuos obtenidos de la 
regresión (11.5.24) se obtuvieron los siguientes resultados:?” 


~ 


üa = —5.8417 + 2.5629 In Comercio; + 0.6918 In PNB; 
—0.4081 (In Comercio)? — 0.0491 (In PNB)? (11.5.25) 
+0.001 5(In Comercio)(In PNB) R? = 0.1148 


Nota: Los errores estándar no están dados porque no son pertinentes para nuestro propósito. 

Ahora, n - R? = 41(0.1148) = 4.7068, que tiene, asintóticamente, una distribución ji cua- 
drada con 5 gl (¿por qué?). El valor ji cuadrada crítico en 5% para 5 gl es 11.0705, el valor crítico 
en 10% es 9.2363, y el valor crítico en 25% es 6.62568. Para todos los fines prácticos, podemos 
concluir, con base en la prueba de White, que no hay heteroscedasticidad. 


Conviene hacer un comentario relacionado con la prueba de White. Si un modelo tiene mu- 
chas regresoras, la introducción de todas las regresoras, de sus términos elevados al cuadrado 
(o a potencias más elevadas) y de sus productos cruzados pueden consumir grados de libertad 
rápidamente. Por consiguiente, se debe tener cautela con esta prueba.? 

En los casos en que el estadístico de prueba de White es significativo estadísticamente, la 
heteroscedasticidad puede no necesariamente ser la causa, sino los errores de especificación, 
los cuales veremos en mayor detalle en el capítulo 13 (recuerde el punto 5 de la sección 11.1). 
En otras palabras, la prueba de White puede ser una prueba de heteroscedasticidad (pura), 
de error de especificación o de ambos. Se argumenta que, si no están presentes términos con 
productos cruzados en el procedimiento de prueba de White, esto constituye una prueba de hete- 
roscedasticidad pura. Si existen tales términos, es una prueba de heteroscedasticidad y de sesgo 
de especificación.?? 


Otras pruebas de heteroscedasticidad 


Hay muchas otras pruebas de heteroscedasticidad, cada una con supuestos determinados. El lec- 
tor interesado puede consultar las referencias.*% Mencionamos sólo una de estas pruebas de- 
bido a su simplicidad. Es la prueba de Koenker-Basset (KB). Al igual que las pruebas Park, 
Breusch-Pagan-Godfrey y la de White, la prueba KB se basa en los residuos al cuadrado, û?, pero 
en vez de hacer la regresión sobre una o más regresoras, se efectúa la regresión de los residuos 
al cuadrado sobre los valores estimados de la regresora al cuadrado. De manera específica, si el 
modelo original es: 


Y = fi + ban + BAG: +++ BA ri + 45 (11.5.26) 


27 Estos resultados, con cambio en la notación, se reproducen de William F. Lott y Subhash C. Ray, Applied 
Econometrics: Problems with Data Sets, Instructor's Manual, capítulo 22, pp. 137-140. 


28 A veces la prueba se puede modificar para conservar los grados de libertad. Consulte el ejercicio 11.18. 


22 Véase Richard Harris, Using Cointegration Analysis in Econometrics Modelling, Prentice Hall & Harvester 
Wheatsheaf, Reino Unido, 1995, p. 68. 

30 Véase M.J. Harrison y B.E. McCabe, “A Test for Heteroscedasticity Based on Ordinary Least Squares Resi- 
duals”, Journal of the American Statistical Association, vol. 74, 1979, pp. 494-499; J. Szroeter, “A Class of Para- 
metric Tests for Heteroscedasticity in Linear Econometric Models”, Econometrica, vol. 46, 1978, 

pp. 1311-1327; M.A. Evans y M.L. King, “A Further Class of Tests for Heteroscedasticity”, Journal of Econo- 
metrics, vol. 37, 1988, pp. 265-276; y R. Koenker y G. Bassett, “Robust Tests for Heteroscedasticity Based on 
Regression Quantiles”, Econometrica, vol. 50, 1982, pp. 43-61. 
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se estima este modelo, se obtiene ù; de dicho modelo y luego se calcula 
ù? = a1 + (F; + vi (11.5.27) 


donde Y, son los valores estimados del modelo (11.5.26). La hipótesis nula es que o, = 0. Si no 
se rechaza, se puede concluir que no existe heteroscedasticidad. La hipótesis nula se prueba con 
las pruebas £ o F usuales. (Observe que F1% = t.) Si el modelo (11.5.26) es doble logaritmo, 
se lleva a cabo la regresión de los residuos al cuadrado sobre (log Ê). Otra ventaja de la prueba 
KB es que es aplicable aunque el término de error en el modelo original (11.5.26) no esté nor- 
malmente distribuido. Si aplica la prueba KB al ejemplo 11.1, descubrirá que el coeficiente de la 
pendiente en la regresión de los residuos cuadrados obtenida de (11.5.3) sobre el f? estimado a 
partir de (11.5.3) no es estadisticamente distinto de cero, por lo que se refuerza la prueba de Park. 
Este resultado no debe sorprender, pues en estos momentos sólo se tiene una sola regresora. No 
obstante, la prueba KB es aplicable si hay una o muchas regresoras. 


Nota sobre las pruebas de heteroscedasticidad 


Ya analizamos varias pruebas de heteroscedasticidad en esta sección. Pero, ¿cómo decidir cuál es 
la mejor? No es una pregunta fácil, pues estas pruebas se basan en supuestos diversos. Al com- 
parar las pruebas, es necesario prestar atención al tamaño (o nivel de significancia), potencia (la 
probabilidad de rechazar una hipótesis falsa) y sensibilidad a los valores atípicos. 

Ya señalamos algunas limitaciones de la prueba de heteroscedasticidad de White, que es po- 
pular y fácil de aplicar. Como resultado de estas limitaciones, tal vez tenga poca potencia en 
relación con las opciones. Además, la prueba no sirve para identificar los factores o variables que 
causan heteroscedasticidad. 

Asimismo, la prueba de Breusch-Pagan-Godfrey es sensible al supuesto de normalidad. En 
contraste, la prueba de Koenker-Bassett no se basa en el supuesto de normalidad y, en consecuen- 
cia, puede ser más potente.*! En la prueba de Goldfeld-Quandt, si se omiten muchas observacio- 
nes, puede disminuir la potencia de la prueba. 

Está fuera del ámbito de este texto proporcionar un análisis comparativo de las diferentes 
pruebas de heteroscedasticidad. Sin embargo, el lector interesado puede consultar el artículo de 
John Lyon y Chin-Ling Tsai para darse una idea de los puntos fuertes y débiles de las diversas 
pruebas de heteroscedasticidad.*? 


11.6 Medidas correctivas 


Como vimos, la heteroscedasticidad no destruye las propiedades de insesgamiento y consistencia 
de los estimadores de MCO; sin embargo, éstos ya no son eficientes, ni siquiera asintóticamente 
(es decir, en muestras grandes). Esta falta de eficiencia resta credibilidad a los procedimientos 
habituales de pruebas de hipótesis. Por consiguiente, es necesario introducir medidas correctivas. 
Existen dos enfoques para remediar el problema de heteroscedasticidad: cuando se conoce 0? y 
cuando no se conoce o? 


i’ 


Cuando se conoce o?: método de los mínimos cuadrados 
ponderados 
Como vimos en la sección 11.3, si se conoce en el método más directo de corregir la heterosce- 


dasticidad es con los mínimos cuadrados ponderados, pues los estimadores obtenidos mediante 
este método son MELI. 


31 Para detalles, véase William H. Green, Econometric Analysis, 6a. ed., Pearson/Prentice-Hall, Nueva Jersey, 
2008, pp. 165-167. 

32 Véase su artículo “A Comparison of Tests of Heteroscedasticity”, The Statistician, vol. 45, núm. 3, 1996, 
pp. 337-349. 


390 


Parte Dos Flexibilización de los supuestos del modelo clásico 


EJEMPLO 11.7 
Ilustración del mé- 
todo de los mínimos 
cuadrados ponde- 
rados 


TABLA 11.4 
Ilustración de una 
regresión de mínimos 
cuadrados ponderados 


Fuente: La información sobre Y 
y a; (desviación estándar de la 
remuneración salarial) corres- 
ponde a la tabla 11.1. El tamaño 
de la planta laboral: 1 = 1-4 
empleados, 2 = 5-9 empleados, 
etc. Los últimos datos son tam- 
bién de la tabla 11.1. 


Para ilustrar el método, suponga que deseamos estudiar la relación entre la remuneración salarial 


y el tamaño de la planta laboral de los datos de la tabla 11.1. Por simplicidad, se mide el tamaño 


de la planta laboral con las siguientes categorías: 1 (1-4 empleados), 2 (5-9 empleados), ..., 
9 (1 000-2 499 empleados), aunque también se puede medir con el punto medio de las diversas 
clases de empleados en la tabla. 

Ahora, sea Y la remuneración salarial promedio por empleado ($) y X el tamaño de emplea- 
dos. Efectuamos la siguiente regresión [véase la ecuación (11.3.6)]: 


Yi/oi = Bi(U/05) + B3(X1/01) + (01/05) 


donde o; son las desviaciones estándar de los salarios como aparecen en la tabla 11.1. Los datos 
simples necesarios para efectuar esta regresión están en la tabla 11.4. 


(11.6.1) 


Tamaño de la 


Remuneración, planta laboral, 


Y X oi Yi/oi Xi/oi 
3 396 1 742.2 4.5664 0.0013 
3 787 2 851.4 4.4480 0.0023 
4 013 3 727.8 5.5139 0.0041 
4 104 4 805.06 5.0978 0.0050 
4 146 5 929.9 4.4585 0.0054 
4 241 6 1 080.6 3.9247 0.0055 
4 387 7 1 241.2 3.5288 0.0056 
4 538 8 1 307.7 3.4702 0.0061 
4 843 9 1110.7 4.3532 0.0081 


Nota: En la regresión (11.6.2), la variable dependiente es (Y;/0;), y las independientes, (1/0;) y (4/05). 


Antes de proseguir con el análisis de los resultados de la regresión, observe que (11.6.1) no 
tiene término de intercepto (¿por qué?). Por consiguiente, debemos utilizar el modelo de regre- 
sión a través del origen para estimar 83 y $3, tema analizado en el capítulo 6. Pero, hoy en día, 
la mayoría de los paquetes de computación dan la opción de suprimir el término de intercepto 
(Minitab o EViews, por ejemplo). Observe también otra característica interesante de (11.6.1): 
tiene dos variables explicativas, (1/0;) y (X;/0;), mientras que si utilizáramos MCO, la regresión 
del salario sobre el tamaño de la planta laboral tendría una sola variable explicativa, X;. (¿Por 
qué?) 

Los resultados de la regresión de MCP son los siguientes: 


(Fi Joi) = 3 406.63%1/0;) + 154.153(X;/0;) 


(80.983) (16.959) (11.6.2) 
t= (42.066) (9.090) 
R? = 0.999333 


Para su comparación, presentamos a continuación los resultados de la regresión de MCO 
usual o no ponderada: 
Ý; = 3 417.833 + 148.767 X; 
(81.136) (14.418) 
t= (42.125) (10.318) 


(11.6.3) 
R2 = 0.9383 


En el ejercicio 11.7 se le pide comparar estas dos regresiones. 


33 Como se señaló en la nota 3 del capítulo 6, R? de la regresión a través del origen no es directamente com- 
parable con R? del modelo con presencia del intercepto. El valor R? de 0.9993 obtenido tiene en cuenta esta 
diferencia. (Véanse los diversos paquetes de cómputo para mayores detalles sobre la forma de corregir R? 
para tener en cuenta la ausencia del término del intercepto. Véase también el apéndice 6A, sección 6A1.) 
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Cuando no se conoce o? 


Como ya vimos, si se conocen las verdaderas 0?, podemos utilizar el método de MCP para obte- 
ner estimadores MELI. Como pocas veces se conocen las verdaderas oĉ, ¿existe alguna forma de 
obtener estimaciones consistentes (en el sentido estadístico) de las varianzas y covarianzas de los 
estimadores de MCO aunque haya heteroscedasticidad? La respuesta es sí. 


Varianzas y errores estándar consistentes con heteroscedasticidad de White 


White demostró que esta estimación puede realizarse de forma que las inferencias estadísticas 
sean asintóticamente válidas (es decir, para muestras grandes) sobre los verdaderos valores de 
los parámetros.** No presentaremos aquí los detalles matemáticos porque no están al alcance 
de este libro. En el apéndice 11A.4 se detalla el procedimiento de White. Sin embargo, en la 
actualidad hay diversos paquetes de computación que presentan varianzas y errores estándar con 
la corrección de heteroscedasticidad de White en forma simultánea con las varianzas y los erro- 
res estándar de MCO usuales.*% A propósito, los errores estándar de White corregidos mediante 
heteroscedasticidad también se conocen como errores estándar robustos. 


EJEMPLO 11.8 
Ilustración del pro- 
cedimiento de White 


Como ejemplo, citamos los siguientes resultados obtenidos por Greene:3$ 


Y = 832.91 — 1 834.2 (Ingreso) + 1 587.04 (Ingreso)? 


ee de MCO = (327.3) (829.0) (519.1) 

t= (2.54) (2.21) (3.06) (11.6.4) 
ee de White = (460.9) (1 243.0) (830.0) 

t= AE (1.48) (1.91) 


donde Y = gasto per cápita en escuelas públicas por estado en 1979 e Ingreso = ingreso per 
cápita por estado en 1979. La muestra consistió en 50 estados más Washington, D.C. 


Como demuestran los resultados anteriores, los errores estándar corregidos por heteroscedas- 
ticidad (de White) resultan considerablemente más grandes que los errores estándar de MCO, y, 
por consiguiente, los valores ź estimados son mucho menores que los obtenidos por MCO. Con 
base en estos últimos, ambas regresoras son estadísticamente significativas en el nivel de 5%, 
mientras que con base en los estimadores de White, no lo son. Sin embargo, cabe señalar que 
los errores estándar corregidos por heteroscedasticidad de White pueden ser más grandes o más 
pequeños que los errores estándar sin corregir. 

Como los estimadores de las varianzas consistentes con heteroscedasticidad de White están 
disponibles ahora en paquetes de computación para regresión, se recomienda que el lector los 
reporte. Como recomiendan Wallace y Silver: 


En términos generales, quizá sea buena idea utilizar la opción WHITE [disponible en los programas 
de regresión] sistemáticamente, tal vez comparar estos resultados con los resultados de MCO regula- 
res como forma de verificar si la heteroscedasticidad es un problema grave en un conjunto particular 
de datos.?” 


Supuestos razonables sobre el patrón de heteroscedasticidad 


Una desventaja del procedimiento de White, además de ser de muestras grandes, es que los esti- 
madores obtenidos por este medio pueden no ser tan eficientes como los obtenidos por métodos 


34 Véase H. White, op. cit. 


35 Más técnicamente, se conocen como estimadores de la matriz de covarianzas consistentes con 
heteroscedasticidad: para abreviar, EMCCH. 


36 William H. Greene, Econometric Analysis, 2a. ed., Macmillan, Nueva York, 1993, p. 385. 


37 T, Dudley Wallace y J. Lew Silver, Econometrics: An Introduction, Addison-Wesley, Reading, Massachusetts, 
1988, p. 265. 
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que transforman la información para reflejar tipos específicos de heteroscedasticidad. Para ilus- 
trar esto, recordemos el modelo de regresión con dos variables: 


Y, = pı + P2X; + ui 


Consideraremos ahora diversos supuestos sobre el patrón de heteroscedasticidad. 


SUPUESTO 1 La varianza del error es proporcional a X?: 


EUA (11.6.5)38 


Si, por razones de “especulación”, por los métodos gráficos, o por los métodos Park y Glej- 
ser, se cree que la varianza de u;es proporcional al cuadrado de la variable explicativa X (figura 
11.10), se puede transformar el modelo original de la siguiente manera. Divida el modelo original 
entre X;: 


Ps 
Ps 
Ps 


(11.6.6) 


donde v; es el término de perturbación transformado, igual a u; /X;. Ahora, es fácil verificar que 


, 2 
E) =E (3) = E (ui) 
=0? utilizando (11.6.5) 


Por tanto, la varianza de v; es ahora homoscedástica y podemos aplicar MCO a la ecuación trans- 
formada (11.6.6), con la regresión Y; /X; sobre 1/X;. 


o 
FIGURA 11.10 f 
Varianza del error propor- 7 $ 
cional a X?, Il, . 
/ 
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38 Recuerde que ya tratamos este supuesto en el análisis de la prueba Goldfeld-Quandt. 
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Observe que, en la regresión transformada, el término del intercepto 6, es el coeficiente de 
pendiente en la ecuación original, y el coeficiente de la pendiente £; es el término del intercepto 
en el modelo original. Por consiguiente, para retornar al modelo original tenemos que multiplicar 
la estimación (11.6.6) por X;. Una aplicación de esta transformación está en el ejercicio 11.20. 


SUPUESTO 2 


La varianza del error es proporcional a X;. La transformación de raíz cuadrada: 


E (u?) =K (11.6.7) 


FIGURA 11.11 
Varianza del error propor- 
cional a X. 


Si se cree que la varianza de u;, en lugar de ser proporcional al cuadrado AX”, es proporcional a 
la misma X;, entonces el modelo original se transforma de la siguiente manera (figura 11.11): 


Y, 
JE ES: 


= Bi>+ 


TX 
ay Ba Xi + Vi 


(11.6.8) 
va 


donde v; = u¡//X; y donde X; > 0. 

Con el supuesto 2 se verifica fácilmente que E(v?) = o°, una situación homoscedástica. Por 
consiguiente, se puede aplicar MCO a (11.6.8), con la regresión de Y;/VX; sobre 1/VX; y 
VX;. 

Observe una característica importante del modelo transformado: no tiene término de inter- 
cepto. Por consiguiente, será necesario el modelo de regresión a través del origen para estimar 6; 
y b2. Tras efectuar la regresión (11.6.8), retornamos al modelo original con tan sólo multiplicar 
(11.6.8) por V X;. 

Un caso interesante es el modelo de intercepto cero, es decir, Y; = 62X; + u;. En este caso, la 
ecuación (11.6.8) se convierte en: 


Y; ui 
Snp A + —— 11.6.8a 
JX, Ba JX, ( ) 
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Y se puede demostrar que 


A 


f, = (11.6.8b) 


gl 


Es decir, el estimador de mínimos cuadrados ponderados es simplemente la razón de las medias 
de las variables dependiente y explicativa. (Para probar la ecuación [11.6.8b], se aplica la fórmu- 
la de regresión a través del origen dada en la ecuación [6.1.6].) 


SUPUESTO 3 


La varianza del error es proporcional al cuadrado del valor medio de Y. 


E (u?) =o AEO (11.6.9) 


La ecuación (11.6.9) postula que la varianza de u; es proporcional al cuadrado del valor espe- 
rado de Y (figura 11.8e). Ahora, 


E(Y:) = Pi + 2X; 
Por consiguiente, si transformamos la ecuación original de la siguiente manera, 


Y; z Bi de Xi de Ui 
E(Y)  E(Y;) f 


EY) EC) 


ma l Xi A 
dá: (ap) +. 35 +" 


(11.6.10) 


donde v; = u/E(Y;), se ve que E(v?) = o°; es decir, las perturbaciones v; son homoscedásticas. 
Por tanto, es la regresión (11.6.10) la que satisfará el supuesto de homoscedasticidad del modelo 
clásico de regresión lineal. 

La transformación (11.6.10), sin embargo, no funciona, porque £(Y;) depende de £1 y 6», los 
cuales no se conocen. Por supuesto, se conoce = Êi + ÊX. p que es un estimador de E(Y;). Por 
consiguiente, podemos proceder en dos etapas: primero, efectuamos la regresión de MCO usual 
sin considerar el problema de heteroscedasticidad y obtenemos Ya Luego, con el Y; estimado, 
transformamos el modelo de la siguiente manera: 


Y, 1 X; 
N EEE A Ed A 11.6.11 
f, e(z) (5) 


donde v; = (u;/ Y;). En el paso 2 efectuamos la regresión (11.6.11). Aunque Y, no es exacta- 
mente E(Y;), estos estimadores son consistentes; es decir, a medida que el tamaño de la muestra 
aumenta indefinidamente, éstos convergen hacia el verdadero £(Y;). Por tanto, la transformación 
(11.6.11) tendrá un desempeño adecuado en la práctica si el tamaño de la muestra es razonable- 
mente grande. 


SUPUESTO 4 


Una transformación logarítmica como 
In Y; = 61 + 82 1n X; + u; (11.6.12) 


con gran frecuencia reduce la heteroscedasticidad cuando se compara con la regresión 
Y, = Bi + PoXi + Us. 
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Este resultado surge porque la transformación logarítmica comprime las escalas en las cuales 
se miden las variables, y por tanto reduce una diferencia entre dos valores de diez veces a una 
diferencia de dos veces. Así, el número 80 es diez veces el número 8, pero el ln 80 (= 4.3280) es 
cerca de dos veces tan grande como ln 8 (= 2.0794). 

Otra ventaja de la transformación logarítmica es que el coeficiente de pendiente 62 mide la 
elasticidad de Y respecto de X, es decir, el cambio porcentual en Y ante un cambio porcentual en 
X. Por ejemplo, si Y es el consumo y X el ingreso, $2 en (11.6.12) mide la elasticidad del ingreso, 
mientras que en el modelo original, $2 sólo mide la tasa de cambio del consumo medio por cam- 
bio unitario del ingreso. Ésta es una razón por la cual los modelos logarítmicos son muy popula- 
res en la econometría empírica. (En el ejercicio 11.4 se aprecian algunos problemas asociados a 
la transformación logarítmica.) 

Para concluir la exposición sobre medidas correctivas, de nuevo destacamos que todas las 
transformaciones analizadas antes son ad hoc; en esencia, especulamos sobre la naturaleza de 07. 
El que las transformaciones estudiadas en verdad funcionen depende de la naturaleza del pro- 
blema y de la gravedad de la heteroscedasticidad. Hay otros problemas con las transformaciones 
que deben tomarse en cuenta: 


1. Cuando se va más allá del modelo con dos variables tal vez no se conozca a priori la varia- 
ble X que debe seleccionarse para transformar los datos.’ 


2. La transformación logarítmica como se analiza en el supuesto 4 no es aplicable si algún 
valor de Y o de X es cero o negativo.* 


3. Además, hay un problema de correlación espuria. Este término, atribuido a Karl Pear- 
son, se refiere a la situación de correlación entre las razones de variables, aunque las variables 
originales no estén correlacionadas o sean aleatorias.*! Así, en el modelo Y; = Bı + B2X; + üi, 
Y y X pueden no estar correlacionados, pero en el modelo transformado Y;/X; = ı(1/XÐ+ 62, a 
menudo se encuentra que Y; /X; y 1/X; sí lo están. 


4. Cuando las 0? no se conocen directamente y se estiman a partir de una o más de las 
transformaciones ya analizadas, todos los procedimientos de prueba t, F, etc., son, en estricto 
sentido, válidos sólo para muestras grandes. Por consiguiente, se debe tener cuidado al inter- 
pretar resultados fundados en las diversas transformaciones cuando las muestras son pequeñas 
o finitas.“ 


11.7 Ejemplos para concluir 


Para concluir el análisis de heteroscedasticidad presentamos tres ejemplos que ilustran los prin- 
cipales temas de este capítulo. 


32 Sin embargo, como un asunto práctico, se puede graficar û? contra cada una de las variables y decidir 
cuál variable X puede utilizarse para transformar la información (figura 11.9). 

40 Algunas veces podemos utilizar In (Y; + K) o In (X; + K), donde k es un número positivo seleccionado de 
forma que todos los valores de Y y X se tornan positivos. 

41 Por ejemplo, si X1, X2 y X3 están mutuamente no correlacionadas, Ty 2 = f3 = r23 = 0 y se encuentra que 
las razones (sus valores) X1/X3 y X2/X3 están correlacionadas, entonces hay correlación espuria. “En términos 
más generales, la correlación se describe como espuria si es inducida por el método de manejo de datos y 
no está presente en la información original.” M. G. Kendall y W. R. Buckland, A Dictionary of Statistical Terms, 
Hafner, Nueva York, 1972, p. 143. 


42 Para mayores detalles, véase George G. Judge et al., op. cit., sección 14.4, pp. 415-420. 
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EJEMPLO 11.9 
De nuevo la morta- 
lidad infantil 


FIGURA 11.12 
Residuos de la regresión 
(8.1.4). 


Regresemos al ejemplo de mortalidad infantil que hemos analizado en diversas ocasiones. De los 
datos de 64 países obtuvimos los resultados de la regresión mostrados en la ecuación (8.1.4). 
En vista de que los datos son transversales e implican diferentes países con distintas experiencias 
sobre mortalidad infantil, parece muy probable que haya heteroscedasticidad. Para descubrirlo, 
primero tomaremos en cuenta los residuos obtenidos de la ecuación (8.1.4). Tales residuos se 
grafican en la figura 11.12. De acuerdo con dicha gráfica, al parecer los residuos no muestran 
ningún patrón específico que sugiera heteroscedasticidad. No obstante, las apariencias enga- 
ñan, así que aplicaremos las pruebas de Park, Glejser y White para descubrir alguna evidencia 
de heteroscedasticidad. 


Prueba de Park. Como hay dos regresoras, PIB y TAM, hacemos la regresión de los residuos al 
cuadrado a partir de la regresión (8.1.4) sobre cualquiera de esas variables. O podemos efectuar 
la regresión de ellos sobre los valores estimados de MI (= MI) a partir de la regresión (8.1.4). 
Con la regresión anterior obtenemos los siguientes resultados: 


07 = 854.4006 + 5.7016Mi 


(11.7.1) 
t= (1.2010) (1.2428) r? = 0.024 


Nota: ûi son los residuos obtenidos de la regresión (8.1.4) y MI son los valores estimados de MI 
a partir de la regresión (8.1.4). 

Como muestra esta regresión, no existe ninguna relación sistemática entre el cuadrado de 
los residuos y los valores estimados de MI (¿por qué?), lo cual sugiere que el supuesto sobre la 
homoscedasticidad puede ser válido. A propósito, si hacemos la regresión del logaritmo de los 
residuos al cuadrado sobre el logaritmo de MI, no cambia la conclusión. 


Prueba de Glejser. Los valores absolutos de los residuos obtenidos a partir de (8.1.4), cuando 
se hizo la regresión de los valores estimados de MI a partir de esa misma regresión, dieron estos 
resultados: 


[â] = 22.3127 + 0.0646 MI, 


t= (2.8086) (1.2622) r? = 0.0250 (21.7.2) 


De nuevo, no existe una gran relación sistemática entre los valores absolutos de los residuos y los 
valores estimados de MI, pues el valor t del coeficiente de la pendiente no es estadísticamente 
significativo. 


Prueba de White. Al aplicar la prueba de White para la heteroscedasticidad con y sin los térmi- 
nos de los productos cruzados no hallamos ninguna evidencia de heteroscedasticidad. También 
volvimos a estimar (8.1.4) para obtener los errores estándar consistentes con heteroscedasti- 
cidad de White y los valores t, pero los resultados fueron muy parecidos a los de la ecuación 
(8.1.4), lo cual no sorprende en vista de lo arrojado por las diversas pruebas de heteroscedasti- 
cidad anteriores. 

En resumen, parece que la regresión de mortalidad infantil (8.1.4) no experimenta heteros- 
cedasticidad alguna. 
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EJEMPLO 11.10 
Gastos en investi- 
gación y desarrollo 
(D), ventas y uti- 
lidades de 14 sec- 
tores industriales 
de Estados Unidos, 
2005 


TABLA 11.5 

Ventas y empleo para 
empresas que realizan 
IyD industrial en Esta- 
dos Unidos, por indus- 
tria, 2005 (los valores 
se expresan en millones 
de dólares) 


Fuente: National Science 
Foundation, Division of Science 
Resources Statistics, Survey 

of Industrial Research and 
Development, 2005, y U.S. 
Census Bureau Annual Survey 
of Manufacturers, 2005. 


En la tabla 11.5 se presentan datos sobre el gasto en investigación y desarrollo (lyD), ventas y 
utilidades de 14 sectores industriales en Estados Unidos (todas las cifras se expresan en millones 
de dólares). Como los datos transversales presentados en la tabla 11.5 son muy heterogéneos, 
en una regresión de lyD sobre las ventas es probable la presencia de heteroscedasticidad. Los 
resultados obtenidos de la regresión fueron los siguientes: 


M= 133 + 
ee = (5 015) 
t= (0.27) 


0.0437 Ventas; 
(0.0277) 
(1.58) 


(11.7.3) 
r? =0.172 


No sorprende una relación positiva entre lyD y ventas, aunque no sea estadísticamente signifi- 
cativa en los niveles tradicionales. 


Industria Ventas lyD Utilidades 
1 Alimentos 374 342 2716 234 662 
2 Textiles, ropa y cuero 51 639 816 53510 
3 Productos químicos básicos 109 899 2 277 75 168 
4 Resinas, caucho sintético, fibras 

y filamentos 132 934 2 294 34 645 
5 Productos farmacéuticos y 
medicamentos 273 377 34 839 127 639 
6 Productos de plástico y caucho 90 176 1760 96 162 
7 Productos metálicos fabricados 174165 1375 155 801 
8 Maquinaria 230 941 8 531 143 472 
9 Computadoras y equipo periférico 91 010 4955 34 004 
10 Semiconductores y otros componentes 
electrónicos 176 054 18 724 81 317 
11 Instrumentos de navegación, medición, 
electromédicos y de control 118 648 15 204 73 258 
12 Equipo eléctrico, aparatos 
electrodomésticos y componentes 101 398 2 424 54 742 
13 Productos y partes aeroespaciales 227 271 15 005 72 090 
14 Equipo y suministros médicos 56 661 4 374 52 443 


Para verificar si la regresión (11.7.3) experimenta heteroscedasticidad, obtuvimos los resi- 
duos û; y los residuos al cuadrado ú? del modelo, y se graficaron respecto de las ventas, como 
se muestra en la figura 11.13. Según esta figura, parece que existe un patrón sistemático entre 
los residuos y los cuadrados de los residuos y las ventas, lo cual indica heteroscedasticidad. Para 
probar esto de manera formal, utilizamos las pruebas de Park, Glejser y White, las cuales dieron 
los siguientes resultados: 


Prueba de Park 


û? = —72 493719 + 916.1 Ventas; 
ee = (54 940 238) 
t= ($132) 


(303.9) (11.7.4) 


(8.01) r2=0.431 


La prueba de Park indica una relación positiva estadísticamente significativa entre el cuadrado 
de los residuos y las ventas. 
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(continuación) 


FIGURA 11.13 Residuos a) y cuadrado de los residuos b) sobre ventas. 
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Prueba de Glejser 


[â| = —1 003 + 0.04639 Ventas; 
ee= (2316) (0.0128) (11.7.5) 
t=(=0:43) C) r? = 0.522 
La prueba de Glejser también indica una relación sistemática entre los valores absolutos de los 


residuos y las ventas, con lo que aumenta la posibilidad de que la regresión (11.7.3) presente 
heteroscedasticidad. 


Prueba de White 


> 


û? = —46 746 325 + 578 Ventas; + 0.000846 Ventas? 
ee = (112 224 348) (1 308) (0.003171) (11.7.6) 
C= (—0.42) (0.44) (0.27) 
RET 0.435 
Con el valor R? y n = 14, se obtiene nR? = 6.090. Con la hipótesis nula de inexistencia de 
heteroscedasticidad, esto debe seguir una distribución ji cuadrada con 2 gl [porque hay dos re- 
gresoras en (11.7.6)]. El valor p, que resulta de obtener un valor ji cuadrado de 6.090 o mayor, 


es de casi 0.0476. Como se trata de un valor bajo, la prueba de White también indica heteros- 
cedasticidad. 


Capítulo 11  Heteroscedasticidad: ¿qué pasa si la varianza del error no es constante? 399 


En resumen, con base en las gráficas de los residuos y las pruebas de Park, Glejser y White, 
parece que en la regresión de lyD (11.7.3) existe heteroscedasticidad. Como la verdadera va- 
rianza del error se desconoce, no podemos utilizar el método de los mínimos cuadrados ponde- 
rados para obtener los errores estándares corregidos por heteroscedasticidad y los valores t. Por 
consiguiente, con base en los datos disponibles, tendríamos que hacer conjeturas respecto de la 
naturaleza de la varianza de error. 

Para concluir el ejemplo, a continuación presentamos los errores estándar de White consis- 
tentes con heteroscedasticidad, como se analizaron en la sección 11.6: 


ÍyD; = 1337.87 + 0.0437 Ventas; 
ee = (4 892.447) (0.0411) (11.7.7) 
i= OA 00A = 0172 


Al comparar la ecuación (11.7.7) con la ecuación (11.7.3) (la segunda sin corrección por he- 
teroscedasticidad), observamos que, a pesar de que no cambiaron los parámetros estimados 
(como era de esperarse), el error estándar del coeficiente del intercepto disminuyó un poco y el 
error estándar del coeficiente de la pendiente se incrementó un poco. Pero recuerde que el pro- 
cedimiento de White es estrictamente para muestras grandes, en tanto que aquí sólo tenemos 
14 observaciones. 


EJEMPLO 11.11 La tabla 11.6 del sitio Web del libro contiene datos sobre salarios y otros aspectos relacionados 
correspondientes a 94 distritos escolares en el noroeste de Ohio. En principio, se estimó la si- 
guiente regresión con base en estos datos: 


In(Salario); = 61 + £2 In(Ingresofam) + £3 In(Valorinm) + u; 


Donde Salario = salario promedio de los maestros ($), Ingresofam = ingreso familiar promedio 
en el distrito ($) y Valorinm = valor promedio de los inmuebles en el distrito ($). 

Como se trata de un modelo de doble logaritmo, todos los coeficientes de las pendientes son 
elasticidades. Con base en las diversas pruebas de heteroscedasticidad analizadas en el texto, se 
concluyó que el modelo anterior tenía heteroscedasticidad. Por tanto, obtuvimos los errores es- 
tándar robustos (de White). La siguiente tabla presenta los resultados de la regresión precedente 
con y sin errores estándar robustos. 


Variable Coeficiente ee MCO ee robusto 
Intercepto 7.0198 0.8053 0.7721 
(8.7171) (9.0908) 
In(ingresofam) 0,2575 0.0799 0.1009 
(3.2230) (2.5516) 
In(valorinm) 0.0704 0.0207 0.0460 
(3.3976) (1.5311) 
R? 0.2198 


Nota: Las cifras entre paréntesis son razones 1 estimadas. 


Aunque los valores de los coeficientes y R? son iguales con el método de MCO o con el de 
White, los errores estándar cambiaron; el cambio más radical es el del error estándar del coefi- 
ciente In(valorinm). El método habitual de MCO indicaría que el coeficiente estimado de esta 
variable es muy significativo estadísticamente, mientras que el error estándar robusto de White 
indica que este coeficiente no es significativo ni siquiera en el nivel de 10%. Lo importante de 
este ejemplo es que, si existe heteroscedasticidad, debe tomarse en cuenta para estimar el mo- 
delo. 
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11.8 Advertencia respecto de una reacción exagerada 


ante la heteroscedasticidad 


En el ejemplo sobre IyD analizado en la sección anterior vimos que, cuando utilizamos la trans- 
formación raíz cuadrada para corregir la heteroscedasticidad en el modelo original (11.7.3), el 
error estándar del coeficiente de la pendiente disminuyó y su valor t aumentó. ¿Este cambio es tan 
importante como para causar preocupación en la práctica? En otras palabras, ¿cuándo debe preo- 
cupar el problema de la heteroscedasticidad? Como sostiene un autor: “la heteroscedasticidad 
jamás ha sido una razón para desechar un modelo que de otra forma sería adecuado”.* 


Aquí vale la pena recordar la advertencia de John Fox: 


. . vale la pena corregir una varianza del error desigual sólo cuando el problema es grave. 

El impacto de una varianza del error no constante sobre la eficacia de un estimador de mínimos 
cuadrados ordinarios y sobre la validez de la inferencia de mínimos cuadrados depende de diver- 
sos factores, como el tamaño de la muestra, el grado de variación de de la configuración de los va- 
lores X (es decir, la regresora) y de la relación entre la varianza del error y las X. Por consiguiente, no 
es posible llegar a conclusiones generales respecto del daño producido por la heteroscedasticidad.** 


De regreso al modelo (11.3.1), vimos ya que la varianza del estimador de pendiente, var ( Ê), 
está dada por la fórmula usual mostrada en (11.2.3). Según MCG, la varianza del estimador de 
pendiente, var (83), está dada por (11.3.9). Sabemos que esta última es más eficaz que la pri- 
mera. Pero, ¿qué tan grande debe ser la primer varianza (es decir, la de MCO) en relación con 
la varianza de MCG antes de que cause preocupación? Como regla práctica, Fox sugiere que el 
problema empiece a preocupar “...cuando la varianza del error más grande sea mayor que 10 
veces la más pequeña”.* Por consiguiente, al revisar los resultados de las simulaciones Monte 
Carlo de Davidson y MacKinnon presentadas antes, considere el valor de œ = 2. La varianza del 
ß2 estimado es 0.04 con MCO, y 0.012 con MCG, por lo que la razón de la primera respecto de 
la segunda es de casi 3.33.*% De acuerdo con la regla de Fox, en este caso la gravedad de la hete- 
roscedasticidad quizá no sea lo bastante grande para provocar preocupación. 

También recuerde que, a pesar de la heteroscedasticidad, los estimadores de MCO (en con- 
diciones generales) son lineales e insesgados, y están asintótica y normalmente distribuidos (es 
decir, en muestras grandes). 

Como veremos cuando analicemos otra violación a los supuestos del modelo clásico de re- 
gresión lineal, la advertencia de esta sección resulta apropiada como regla general. Si hace caso 
omiso de lo anterior, puede cometer errores. 


Resumen y 
conclusiones 


1. Un supuesto importante del modelo clásico de regresión lineal es que todas las perturbaciones 
u; tienen la misma varianza o°. Si este supuesto no se satisface, hay heteroscedasticidad. 

2. La heteroscedasticidad no destruye las propiedades de insesgamiento y consistencia de los 
estimadores de MCO. 

3. Sin embargo, estos estimadores dejan de tener varianza mínima, es decir, de ser eficientes. Por 
consiguiente, no son MELI. 

4. Los estimadores MELI son proporcionados por el método de mínimos cuadrados ponderados, 


siempre que se conozcan las varianzas heteroscedásticas de error, ož. 


43 N. Gregory Mankiw, “A Quick Refresher Course in Macroeconomics”, Journal of Economic Literature, vol. 
XXVIII, diciembre de 1990, p. 1648. 


44 John Fox, Applied Regression Analysis, Linear Models, and Related Methods, Sage, California, 1997, p. 306. 
45 Ibid., p. 307. 
46 Observe que los errores estándar se elevaron al cuadrado para obtener las varianzas. 
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5. En presencia de heteroscedasticidad, las varianzas de los estimadores de MCO no se obtienen 
con las fórmulas usuales de MCO. Sin embargo, si insiste en utilizar las fórmulas habituales 
de MCO, las pruebas t y F basadas en ellas pueden conducir a grandes desatinos que darán por 
resultado conclusiones erróneas. 

6. Es más fácil documentar las consecuencias de la heteroscedasticidad que detectarlas. Existen 
diversas pruebas de diagnóstico disponibles, pero no se puede decir con seguridad cuál fun- 
cionará en una situación dada. 

7. Aunque se sospeche y se detecta la heteroscedasticidad, no es fácil corregir el problema. Si la 
muestra es grande, se pueden obtener los errores estándar de los estimadores de MCO corre- 
gidos por el método de heteroscedasticidad de White y realizar inferencia estadística basada 
en estos errores estándar. 

8. De lo contrario, con base en los residuos de MCO, se pueden hacer conjeturas con ciertos 
fundamentos acerca del patrón probable de heteroscedasticidad y transformar la información 
original de manera que en la información transformada no haya heteroscedasticidad. 


EJERCICIOS 


Preguntas 
11.1. Establezca si las siguientes afirmaciones son verdaderas, falsas o inciertas y comente sus 
razones brevemente: 


a) En presencia de heteroscedasticidad, los estimadores de MCO son sesgados e inefi- 
cientes. 


b) Si hay heteroscedasticidad, las pruebas convencionales £ y F son inválidas. 
c) En presencia de heteroscedasticidad, el método de MCO habitual siempre sobrees- 
tima los errores estándar de los estimadores. 
d) Si los residuales estimados mediante una regresión por MCO exhiben un patrón sis- 
temático, significa que hay heteroscedasticidad en los datos. 
e) No hay una prueba general de heteroscedasticidad que no esté basada en algún su- 
puesto acerca de cuál variable está correlacionada con el término de error. 
f) Si el modelo de regresión está mal especificado (por ejemplo, si se omitió una variable 
Importante), los residuos de MCO mostrarán un patrón claramente distinguible. 
g) Si una regresora con varianza no constante se omite (incorrectamente) de un modelo, 
los residuos (MCO) serán heteroscedásticos. 
11.2. En una regresión de salarios promedio (W, $) sobre el número de empleados (N ) de una 
muestra aleatoria de 30 empresas se obtuvieron los siguientes resultados:* 


~a 


W=7.5 +  0.009N 


t=na. (16.10) R? = 0.90 (1) 
WIN= 0.008+ 7.8(1/N) o 
t= (14.43) (76.58) R? = 0.99 


a) ¿Cómo interpreta las dos regresiones? 


b) ¿Qué supone el autor al pasar de la ecuación (1) a la (2)? ¿Le preocupaba la heteros- 
cedasticidad? ¿Cómo sabe? 


c) ¿Puede relacionar las pendientes y los interceptos de los dos modelos? 
d) ¿Puede comparar los valores de R? de los dos modelos? ¿Por qué? 


* Véase Dominick Salvatore, Managerial Economics, McGraw-Hill, Nueva York, 1989, p. 157. 
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11.4. 


11.6. 


a) ¿Puede estimar los parámetros de los modelos 
[21 = V Bi + P2X + vi 


[2,1 =,/B1 + b2X? + vi 


mediante el método de mínimos cuadrados ordinarios? ¿Por qué? 


b) Sila respuesta es negativa, ¿puede sugerir un método informal o formal de estimación 
de los parámetros de tales modelos? (Véase el capítulo 14.) 


Aunque los modelos logarítmicos como el de la ecuación (11.6.12) a menudo reducen la 
heteroscedasticidad, se debe prestar cuidadosa atención a las propiedades del término de 
perturbación de estos modelos. Por ejemplo, el modelo 


Y, = B1XPu, (1) 
puede escribirse como 
In Y; = In 6; + 62 ln X; + ln u; (2) 


a) Si ln u; tiene valor esperado cero, ¿cuál debe ser la distribución de u;? 
b) Si E(u) = 1, ¿será E(n u,)= 0? ¿Por qué? 
c) Si E(n u;) es diferente de cero, ¿qué puede hacer para volverlo cero? 


. Muestre que £% de (11.3.8) también se expresa como 


Ba = D a 
” Ew 


y var (85) dada en (11.3.9) también se expresa como 


1 
Dume 


donde y? = Y; — Y* y x? = X; — X* representan las desviaciones en relación con las 
medias ponderadas Y* y X* definidas como 


y= Dr / DE 
x= Ewx Yw 


Con propósitos pedagógicos, Hanushek y Jackson estiman el siguiente modelo: 


var ($3) = 


C: = Bi + P2PNB, + B3D, + ui (1) 


donde C, = gasto agregado de consumo privado en el año £, PNB, = producto nacional 
bruto en el año £ y D, = gastos de defensa nacional en el año £, con el objetivo de estudiar 
el efecto de los gastos de defensa sobre otros gastos en la economía. 

Los autores postulan que o? = o*(PNB,)?, luego transforman (1) y estiman 


C,/PIB, = Bi (1/PIB;) + $2 + B3 (D,/PIB) + 4,/PIB, (2) 
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Los resultados empíricos basados en la información de 1946 a 1975 fueron los siguien- 
tes (errores estándar entre paréntesis):* 


Ê, = W6 + 0.6248 PNB, — 0.4398 D, 
(2.73) (0.0060) (0.0736) R? = 0.999 
C, /PNB, = 25.92 (1 /PNB) + 0.6246 — 0.4315 (D,/PNB)) 
(2.22) (0.0068) (0.0597) R? = 0.875 


a) ¿Qué supuesto hacen los autores sobre la naturaleza de la heteroscedasticidad? ¿Puede 
justificarlo? 

b) Compare los resultados de las dos regresiones. ¿La transformación del modelo 
original mejora los resultados, es decir, reduce los errores estándar estimados? 
¿Por qué? 

c) Puede comparar los dos valores de R?? ¿Por qué? (Sugerencia: Examine las variables 
dependientes.) 


11.7. Consulte las regresiones estimadas (11.6.2) y (11.6.3). Los resultados de la regresión son 
muy similares. ¿A qué se debe esta conclusión? 


11.8. Pruebe que si w; = w, una constante, para cada i, 6% y f2 son idénticos, así como sus 
varianzas. 


11.9. Consulte las fórmulas (11.2.2) y (11.2.3), y suponga que 


donde o? es una constante y k; son ponderaciones conocidas, no necesariamente todas 
Iguales. 
Con este supuesto, muestre que la varianza dada en (11.2.2) se expresa como 


o? Nk 
DE 


El primer término del miembro derecho es la fórmula de la varianza dada en (11.2.3), 
es decir, var (83) con homoscedasticidad. ¿Qué puede decir sobre la naturaleza de la 
relación entre var (Ba) con heteroscedasticidad y con homoscedasticidad? (Sugerencia: 
Examine, en la fórmula anterior, el segundo término del miembro derecho.) ¿Puede deri- 
var alguna conclusión general sobre las relaciones entre (11.2.2) y (11.2.3)? 


11.10. En el modelo 


var (fa) = 


Y, = B2X, + u; (Nota: No hay intercepto) 
se le informa que var (u;) = 0? X?. Demuestre que 
2y 


TEE 


* Eric A. Hanushek y John E. Jackson, Statistical Methods for Social Scientists, Academic, Nueva York, 1977, 
p. 160. 
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Ejercicios empíricos 
11.11. Con la información de la tabla 11.1, efectúe la regresión de la remuneración salarial pro- 
medio Y sobre la productividad promedio X, y considere el tamaño de la planta laboral 
como unidad de observación. Interprete sus resultados y vea si están de acuerdo con los 
presentados en (11.5.3). 
a) De la regresión anterior, obtenga los residuos ĉ;. 
b) Según la prueba de Park, efectúe la regresión de In ù sobre ln X; y verifique la regre- 
sión (11.5.4). 
c) Según el método de Glejser, efectúe la regresión de |ů;| sobre X; y luego la regresión 
de |ûů;| sobre /-X;. Comente sus resultados. 
d) Encuentre la correlación de orden entre |ù;| y X;, y comente sobre la naturaleza de la 
heteroscedasticidad presente en los datos, si existe. 


11.12. La tabla 11.6 presenta información sobre la razón ventas/efectivo en las industrias manu- 
factureras de Estados Unidos, clasificadas por tamaño de activos del establecimiento de 
1971-I a 1973-IV. (Información trimestral.) La razón ventas/efectivo puede considerarse 
una medida de la velocidad del ingreso en el sector empresarial, es decir, el número de 
veces que circula un dólar. 

a) Por cada tamaño de activos, calcule la media y la desviación estándar de la razón 
ventas/efectivo. 

b) Grafique el valor de la media frente a la desviación estándar obtenida en a), con el 
tamaño de activos como unidad de observación. 

c) Con un modelo de regresión apropiado, determine si la desviación estándar de la razón 
se incrementa con el valor de la media. De no ser así, ¿cómo interpreta el resultado? 

d) Si hay una relación estadísticamente significativa entre los dos, ¿cómo transformaría 
la información de manera que no haya heteroscedasticidad? 


11.13. Prueba de homogeneidad de varianza de Bartlett.* Suponga que hay k varianzas mues- 


trales independientes s?, 53, ..., se con fi, f2,..., fx gl, cada una proveniente de poblacio- 
nes normalmente distribuidas con media u y varianza 0?. Suponga además que deseamos 
probar la hipótesis nula Hp: 0? = o2 = - - - = of = o°; es decir, cada varianza muestral 


es una estimación de la misma varianza poblacional o°. 


Si la hipótesis nula es verdadera, entonces 
k 


S 
2 = 2S í S DS 
2 y 
TABLA 11.6 nG 
E 5 no y 
id activos trimestre 1-10 10-25 25-50 50-100 100-250 250-1000 1000+ 
(millones de dólares) 
1971-1 6.696 6.929 6.858 6.966 7.819 7.557 7.860 
Fuente: Quarterly Financial -Il 6.826 7.311 7.299 7.081 7.907 7.685 7.351 
o -Ili 6.338 7.035 7.082 7.145 7.691 7.309 7.088 
'orporations, Federal Trade 

A -IV 6.272 6.265 6.874 6.485 6.778 7.120 6.765 
Exchange Commission, gobierno 1972-1 6.692 6.236 7.101 7.060 7.104 7.584 6.717 
de Estados Unidos, variables -Il 6.818 7.010 7.719 7.009 8.064 7.457 7.280 
solne diversos taimes (eelboulkiks), -Ill 6.783 6.934 7.182 6.923 7.784 7.142 6.619 

-IV 6.779 6.988 6.531 7.146 7.279 6.928 6.919 

1973-1 7.291 7.428 7.272 7.571 7.583 7.053 6.630 

-Il 7.766 9.071 7.818 8.692 8.608 7.571 6.805 

-Ill 7.733 8.357 8.090 8.357 7.680 7.654 6.772 

-IV 8.316 7.621 7.766 7.867 7.666 7.380 7.072 


* Véase “Properties of Sufficiency and Statistical Tests”, Proceedings of the Royal Society of London A, vol. 160, 
1937, p. 268. 
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constituye una estimación de la estimación común (agrupada) de la varianza poblacional 
0?, donde f; = (n; — 1), con n; como el número de observaciones en el ¡-ésimo grupo y 
donde f = yo fi 

Bartlett demostró que la hipótesis nula se prueba por la razón 4/B, distribuida aproxi- 
madamente como la distribución x? con k — 1 gl, donde 


A= fins? — Y (filns?) 


o El g] 


Aplique la prueba de Bartlett a los datos de la tabla 11.1 y verifique que no se puede 
rechazar la hipótesis de que las varianzas poblacionales de la remuneración salarial son 
las mismas para cada tamaño de la planta laboral del establecimiento, en el nivel de sig- 
nificancia de 5%. 

Nota: f;, los gl para cada varianza muestral, es 9, pues n; para cada muestra (es decir, 
clase de empleados) es 10. 


11.14. Considere el siguiente modelo de regresión a través del origen: 
Y, = PX; + üi; para i = 1, 2 


Se tiene que u1 ~ N(0, o?) y uz ~ N(0, 20°), y que son estadísticamente independientes. 
Si Xı = +1 y X% = —1, obtenga la estimación por mínimos cuadrados ponderados (MCP) 
de £ y su varianza. Si en esta situación supuso de manera incorrecta que la dos varian- 
zas de los errores son iguales (por ejemplo, iguales a 0?), ¿cuál sería el estimador de 
MCO de £?, ¿y su varianza? Compare estas estimaciones con las obtenidas por el método 
de MCP. ¿Qué conclusión general deduce?* 


11.15. La tabla 11.7 proporciona datos sobre 81 automóviles respecto de su MPG (millas pro- 
medio por galón), CF (caballos de fuerza de su motor), VOL (pies cúbicos de su cabina), 
VM (velocidad máxima en millas por hora) y su PS (peso del vehículo en cientos de 1b). 


a) Considere el siguiente modelo: 


MPG; = Bi + B2VM; + B3CF; +84PS; + ui 
Estime los parámetros de este modelo e interprete los resultados. Desde el punto de 
vista económico, ¿tiene sentido? 
b) ¿Esperaría que la varianza del error en el modelo anterior sea heteroscedástica? ¿Por 
qué? 
c) Con la prueba de White determine si la varianza de error es heteroscedástica. 


d) Obtenga los errores estándar de White consistentes con la heteroscedasticidad, así 
como los valores f, y compare los resultados con los obtenidos mediante MCO. 

e) Si se establece heteroscedasticidad, ¿cómo puede transformar los datos de manera 
que en los datos transformados la varianza del error sea homoscedástica? Muestre los 
cálculos necesarios. 


11.16. Gasto alimentario en India. En la tabla 2.8 se proporcionaron datos sobre el gasto en 
alimentos y el gasto total de 55 familias de India. 


a) Haga la regresión del gasto alimentario sobre el gasto total y examine los residuos 
obtenidos en dicha regresión. 


b) Grafique los residuos obtenidos en el inciso a) contra el gasto total y verifique si 
existe algún patrón sistemático. 


* Adaptado de F.A.F. Seber, Linear Regression Analysis, John Wiley & Sons, Nueva York, 1977, p. 64. 
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TABLA 11.7 Datos de millajes de automóviles de pasajeros 


Observación MPG 


1 65.4 

2 56.0 

3 55.9 

4 49.0 

5 46.5 

6 46.2 

7 45.4 

8 59.2 

9 53.3 
10 43.4 
11 41.1 
12 40.9 
13 40.9 
14 40.4 
15 39.6 
16 39.3 
17 38.9 
18 38.8 
19 38.2 
20 42.2 
21 40.9 
22 40.7 
23 40.0 
24 39.3 
25 38.8 
26 38.4 
27 38.4 
28 38.4 
29 46.9 
30 36.3 
31 36.1 
32 36.1 
33 35.4 
34 35.3 
35 35.1 
36 35.1 
37 35.0 
38 33.2 
39 32.9 
40 32.3 
41 32.2 


VM 


120 
106 


CF 


VOL 


PS 


17.5 
20.0 
20.0 


Observación 
42 


VM 


106 
109 
106 
105 
108 
108 
107 
120 
109 
109 
109 
109 
133 
125 
115 
102 
109 
104 
105 
120 
107 
114 
114 
117 
122 
122 
122 
122 
148 
160 
121 
121 
110 
110 
121 
165 
140 
147 
157 
130 


Notas: 


VOL = pies cúbicos del espacio de cabina 


CF = caballos de fuerza del motor 
MPG = millas promedio por galón 


VM = velocidad máxima, millas por hora 
PS = peso del vehiculo, cientos de libras 
Observación = número de observaciones del automóvil (el nombre de los vehículos no se proporciona). 


Fuente: U.S. Environmental Protection Agency, 1991, Informe EPA/AA/CTAB/91-02. 


TABLA 11.8 
Mediana de los salarios 
de los catedráticos en 
estadística, 2007 


Fuente: American Statistical 
Association, “2007 Salary 
Report”. 


LI. 


11.18. 


11.19. 


11.20. 
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c) Si la gráfica del inciso b) sugiere heteroscedasticidad, aplique las pruebas de Park, 
Glejser y White para determinar si la sensación respecto de la heteroscedasticidad 
observada en b) se sustenta con estas pruebas. 

d) Obtenga los errores estándar de White consistentes con la heteroscedasticidad y com- 
párelos con los errores estándar de MCO. Decida si vale la pena corregir este ejemplo 
a causa de la heteroscedasticidad. 


Repita el ejercicio 11.16, pero en esta ocasión efectúe la regresión del logaritmo del gasto 
alimentario sobre el logaritmo del gasto total. Si observa heteroscedasticidad en el mo- 
delo lineal del ejercicio 11.16 pero no en el modelo log-lineal, ¿a qué conclusión llega? 
Muestre todos los cálculos necesarios. 

Un atajo de la prueba de White. Como mencionamos en el texto, la prueba de White 
consume grados de libertad si existen varias regresoras y se introducen todas las regre- 
soras, sus términos cuadrados y sus productos cruzados. Por consiguiente, en vez de 
estimar las regresiones como la (11.5.22), ¿por qué no simplemente efectúa la siguiente 
regresión? 


2 =01 +09 +01) +; 


donde Y, son los valores estimados Y (es decir, la regresada) de cualquier modelo que se 
calcule. Después de todo, Y, es tan sólo el promedio ponderado de las regresoras, donde 
los coeficientes estimados de la regresión sirven como ponderaciones. 

Obtenga el valor R? de la regresión anterior y utilice (11.5.22) para probar la hipótesis 
de que no existe heteroscedasticidad. 

Aplique la prueba anterior al ejemplo de gasto alimentario del ejercicio 11.6. 


Reconsidere el ejemplo sobre IyD de la sección 11.7. Repita ese ejemplo con las ganan- 
cias como la regresora. A priori, ¿esperaría que los resultados fuesen diferentes de los que 
utilizan las ventas como regresoras?, ¿por qué? 

La tabla 11.8 proporciona datos sobre la mediana de los salarios de catedráticos en es- 

tadística que laboraron en centros universitarios de investigación de Estados Unidos 

durante el año académico 2007. 

a) Grafique la mediana de los salarios respecto de los rangos de años (como medida 
de los años de experiencia). Para propósitos de la gráfica, suponga que la mediana de 
los salarios está referida al punto medio del rango de años correpondiente. Por con- 
siguiente, el salario de $124 578 del rango 4-5 está referido a 4.5 años del rango 
correspondiente, y así sucesivamente. Para el último grupo, suponga que el rango es 
31-33. 


b) Considere los siguientes modelos de regresión: 


Y, = œi +0,X, + üi (1) 

Y; = fı + BX; + BX? + v (2) 
Rango de años Cuenta Mediana 
0al 40 $101 478 
2a3 24 102 400 
4a5 35 124 578 
6a7 34 122 850 
8a9 33 116 900 
10a14 73 119 465 
15a19 69 114 900 
20 a 24 54 129 072 
25a 30 44 131 704 


31 o más 25 143 000 
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donde Y = mediana del salario, X = año en el rango (medido como el punto medio 
del intervalo), y u y v son los términos de error. ¿Puede justificar por qué el modelo 
(2) sería preferible al modelo (1)? A partir de estos datos, estime los modelos. 

c) Si observa heteroscedasticidad en el modelo (1) pero no en el modelo (2), ¿a qué 
conclusiones llega? Muestre los cálculos necesarios. 

d) Si observa heteroscedasticidad en el modelo (2), ¿cómo puede transformar los datos 
de manera que en el modelo transformado no existiera heteroscedasticidad? 


11.21. Tiene la siguiente información: 


SCR; basado en las primeras 30 observaciones = 55, gl = 25 
SCR; basado en las últimas 30 observaciones = 140, gl = 25 


Realice la prueba de heteroscedasticidad de Goldfeld-Quandt en el nivel de significancia 
de 5%. 


11.22. La tabla 11.9 presenta información acerca de los precios de acciones (Y) y los precios al 

consumidor (X ) expresados en cambios porcentuales anuales para un corte transversal de 

20 países. 

a) Grafique los datos en un diagrama de dispersión. 

b) Efectúe la regresión de Y sobre X y examine los residuos de esta regresión. ¿Qué ob- 
serva? 

c) Como los datos de Chile parecen atípicos, repita la regresión en b) sin la información 
sobre Chile. Ahora examine los residuos de esta regresión. ¿Qué observa? 

d) Si, con base en los resultados de b), concluye que hubo heteroscedasticidad en la 


varianza del error, pero con base en los resultados de c) modifica este resultado, ¿qué 
conclusiones generales obtiene? 


TABLA 11.9 Tasa de crecimiento, % anual 
Precios de acciones y 
precios al consumidor, Precio de acciones, Precio al consumidor, 
periodo posterior a la País Y X 
Segunda Guerra 1. Australia 5.0 4.3 
Mundial (hasta 1969) 2. Austria 11.1 4.6 
E NE 3. Bélgica 3.2 2.4 
a E 4. Canadá 7.9 2.4 
Historical Record of Many 5. Chile 25.5 26.4 
Countries, National Bureau of 6. Dinamarca 3.8 4.2 
Economic Research, suplemento, 7. Finlandia 11.1 5.5 
marzo de 1974, tabla 1, p. 4. 8. Francia 9.9 47 
9. Alemania 13.3 2.2 
10. India 15 4.0 
11. Irlanda 6.4 4.0 
12. Israel 8.9 8.4 
13. Italia 8.1 3.3 
14. Japón 13.5 4.7 
15. México 4.7 5.2 
16. Países Bajos 7.5 3.6 
17. Nueva Zelanda 4.7 3.6 
18. Suecia 8.0 4.0 
19. Reino Unido 7.5 3.9 
20. Estados Unidos 9.0 2.1 
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11.23 Latabla 11.10 del sitio Web presenta datos sobre salarios y otros aspectos relacionados de 
447 ejecutivos de 500 empresas de Fortune. Los datos incluyen salario = salario y grati- 
ficaciones de 1999; remtot = remuneración total del director general en 1999; antigüe- 
dad = número de años como director general (0 si tiene menos de 6 meses en el cargo); 
edad = edad del director general; ventas = total de los ingresos por ventas de la empresa 
en 1998; utilidades = utilidades de la empresa en 1998; y activos = total de activos de 
la empresa en 1998. 

a) Estime la siguiente regresión con base en estos datos y obtenga el estadístico de 
Breusch-Pagan-Godfrey para ver si hay heteroscedasticidad: 


salario; = f¡ + frantigiedad, + P3edad; + Baventas; + Bsutilidades; + Peactivos; + u; 


¿Parece existir un problema de heteroscedasticidad? 


b) Ahora cree un segundo modelo con In(salario) como variable dependiente. ¿Observa 
alguna mejora en la heteroscedasticidad? 


c) Cree diagramas de dispersión del salario sobre cada variable independiente. ¿Puede 
discernir qué variables contribuyen al problema? ¿Qué propondría ahora para resol- 
verlo? ¿Cuál es el modelo final? 


114.1 Prueba de la ecuación (11.2.2) 


Del apéndice 3A, sección 3A.3, tenemos 
var(B2) = E (a + ku% +--+ + Kk2u2 +2 términos de productos cruzados) 
= E(k + kuh +--+ ku) 


pues los valores esperados de los términos de productos cruzados son cero debido al supuesto de no corre- 
lación serial, 


var (Ê2) = KE (ui) J ¡E (u3) ao KE(u2) 
porque se conocen las k;. (¿Por qué?) 
var (Ê2) = Koi + 503 +i + kaon 


pues E(u?) = ož. 


2 
-E (57) a pesh = == (11.2.2) 


114.2 Método de mínimos cuadrados ponderados 


Para ilustrar el método utilizamos el modelo de dos variables Y; = B¡ + 62X; + u;. El método de mínimos 
cuadrados no ponderado reduce 


> = D =i = Y (1) 
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para obtener las estimaciones, mientras que el método de mínimos cuadrados ponderados reduce la suma de 
cuadrados ponderada de los residuales: 


Y wi = Sm — Bi — BY (2) 
donde f; y $3 son los estimadores de mínimos cuadrados ponderados y las ponderaciones w; son tales que 
== 6) 


or 


es decir, las ponderaciones son inversamente proporcionales a la varianza de u; o Y; condicional a las X; 
dadas, y queda entendido que var (u; | X¡) = var (Y; | Xi) = Eee 
Al diferenciar (2) respecto de $] y $3, obtenemos 


ə ¡e X A 

PM a — BI BNO 
əbi 

ə iù A A 

A Y a BEI 
opz 


Igualamos a cero las expresiones anteriores y obtenemos las dos siguientes ecuaciones normales: 


NX; =p} X + 830) wiXi (4) 


Nm XX = Pt Y wX + 830 wX; 6 


Observe la semejanza entre estas ecuaciones normales y las ecuaciones normales de los mínimos cuadrados 
no ponderados. 
Resolvemos estas ecuaciones simultáneamente y obtenemos 


Be mp (6) 


¿AE ao 


(E)E) (Ex) 


La varianza de 67 que aparece en (11.3.9) se obtiene en la forma de la varianza de Ba que aparece en el 
apéndice 3A, sección 3A.3. 

Nota: Y* = Y wY,/ Y w; y eE Y w,X¡/ Y wi. Como se verifica fácilmente, estas medias pondera- 
das coinciden con las medias usuales o sin ponderar Y y X cuando w; = w, una constante, para todo i. 


114.3 Prueba de que E(52) # 0? en presencia 
de heteroscedasticidad 


Considere el modelo de dos variables: 
Y, = bi + PA, + ui (1) 


donde var (u;) = oĉ. 
Ahora 


a Ee O O 2 a 
“naa m=z E u=? 


El (Êi — b) — (Ê2 — P) Xi + uil 
n—2 


(2) 
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Observe que ( Bi = Bi) == (Ba — B2)X +1, y sustituya lo anterior en (2); al tomar las esperanzas en 
ambos miembros, tenemos: 


26) = — [D varh) + E [DO a] 


1 Dro (n-1) No? 
| yan | 


(3) 


donde se utiliza (11.2.2). 

Como puede observar de (3), si existe homoscedasticidad, es decir, o? = 0? para cada i, E(6?) = o?. 
En consecuencia, el valor esperado de 6? = ` ù? /(n — 2) calculado de manera convencional no será igual 
a la verdadera 0? en presencia de heteroscedasticidad.' 


114.4 Errores estándar robustos de White 


Para dar alguna idea respecto de los errores estándar de White corregidos por heteroscedasticidad, considere 
el siguiente modelo de regresión de dos variables: 


Y; =B+BX tu; var(u)=0] (1) 
Como se muestra en (11.2.2), 
Laro; 
(Ex) 
2 


Como o no son directamente observables, White sugiere utilizar de el residuo al cuadrado para cada i, en 


lugar de e, y calcular var ( B2) de la siguiente forma: 


var (Ba) = (2) 


xa 
(2) 
1 
White demostró que (3) es un estimador consistente de (2); es decir, conforme el tamaño de la muestra crece 
de manera indefinida, (3) converge a (2).? 
A propósito, observe que si el paquete de software utilizado no contiene el procedimiento de errores 


estándar robustos de White, se puede efectuar como se muestra en (3): primero la regresión usual por MCO, 
después se obtienen los residuos de esta regresión y luego se utiliza la fórmula (3). 


var(B2) = (3) 


El procedimiento de White se generaliza al modelo de regresión de k variables: 


Y, = Pi + BrXa + B3X3 ++ BrX ti +45 (4) 
La varianza de todo coeficiente de regresión parcial, por ejemplo Br se obtiene así: 
A Wi 
var (Ê;) = DR (5) 


2 
(Em) 
donde ĉ; son los residuos obtenidos de la regresión original (4), y % son los residuos proporcionados por la 
regresión (auxiliar) de la regresora X; sobre las regresoras restantes en (4). 

Obvio, es un procedimiento tardado, pues se debe estimar (5) para cada variable X. Por supuesto, todo 
este trabajo se evita si se cuenta con un software estadístico que lo haga de manera rutinaria. En la actuali- 
dad, programas como PC-GIVE, Eviews, MICROFIT, SHAZAM, STATA y LIMDEP calculan de manera 
muy sencilla los errores estándar robustos de White con heteroscedasticidad. 


1 Se pueden obtener mayores detalles en Jan Kmenta, Elements of Econometrics, 2a. ed., Macmillan, Nueva 
York, 1986, pp. 276-278. 

2 Para mayor precisión, n veces (3) converge en probabilidad a E[(X; — ux}? u? (0z?, que es la proba- 
bilidad límite de n veces (2), donde n es el tamaño de la muestra, ux es el valor esperado de X y 0% es la 
varianza (poblacional) de X. Para mayores detalles, véase Jeffrey M. Wooldridge, Introductory Econometrics: A 
Modern Approach, South-Western, 2000, p. 250. 


Capítulo l ) 


Autocorrelación: ¿qué 
pasa si los términos 
de error están 
correlacionados? 


El lector quizá recuerde que existen tres tipos de datos disponibles para el análisis empírico: 
1) transversales, 2) series de tiempo y 3) la combinación de ambos, también conocida como da- 
tos agrupados. Al desarrollar el modelo clásico de regresión lineal (MCRL), en la parte 1, 
partimos de varios supuestos, que se analizaron en la sección 7.1. No obstante, observamos que 
no todos los supuestos se cumplen con cualquier tipo de datos. De hecho, en el capítulo anterior 
vimos que el supuesto de la homoscedasticidad, o varianza de error igual, no siempre se sustenta 
en los datos transversales. En otras palabras, los datos transversales a menudo están plagados de 
problemas de heteroscedasticidad. 

Sin embargo, en los estudios transversales, a menudo los datos se recopilan con base en una 
muestra aleatoria de unidades transversales; como familias (en un análisis de la función con- 
sumo) o empresas (en un estudio de análisis sobre la inversión), de modo que no existe razón 
previa para creer que el término de error que correspondiente a una familia o a una empresa esté 
correlacionado con el término de error de otra familia o empresa. Si por casualidad se observa 
dicha correlación en unidades transversales, se conoce como autocorrelación espacial; es decir, 
es una correlación en el espacio más que en el tiempo. Sin embargo, es importante recordar que 
en el análisis transversal la ordenación de los datos debe tener alguna lógica, o algún interés eco- 
nómico, a fin de que cobre sentido la conclusión de la presencia o ausencia de autocorrelación 
(espacial). 

No obstante, es probable que la situación sea muy distinta si trabajamos con datos de series 
de tiempo, pues las observaciones en estos datos siguen un ordenamiento natural respecto del 
tiempo, de modo que es muy posible que las observaciones sucesivas muestren intercorrela- 
ciones, sobre todo si el intervalo entre observaciones sucesivas es muy corto, como un día, una 
semana o un mes, en lugar de un año. Si observa los índices bursátiles, como el Dow Jones o el 
S&P 500 en días sucesivos, no es raro que descubra que dichos índices aumentan o disminuyen 
durante varios días sucesivos. Obvio, en esta clase de situaciones se viola el supuesto del MCRL 
en cuanto a que no existe autocorrelación, ni correlación serial en los términos de error. 

En este capítulo examinaremos en forma crítica este supuesto con el fin de responder las si- 
guientes preguntas: 


1. ¿Cuál es la naturaleza de la autocorrelación? 


2. ¿Cuáles son las consecuencias teóricas y prácticas de la autocorrelación? 
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3. Como el supuesto de no autocorrelación se relaciona con las perturbaciones no observables 
us ¿cómo saber que hay autocorrelación en una situación dada? Observe que ahora usaremos 
el subíndice f para destacar que los datos corresponden a series de tiempo. 


4. ¿Cómo remediar el problema de la autocorrelación? 


En este capítulo el lector encontrará similitudes en muchos aspectos con el anterior sobre he- 
teroscedasticidad, pues, en presencia tanto de autocorrelación como de heteroscedasticidad, 
los estimadores de MCO usuales, a pesar de ser lineales, insesgados y tener distribución 
asintóticamente normal (es decir, en muestras grandes),' dejan de tener varianza mínima 
entre todos los estimadores lineales insesgados. En resumen, no son eficientes en relación 
con los demás estimadores lineales e insesgados. Dicho de otro modo, es posible que no sean 
los mejores estimadores lineales insesgados (MELI). Como resultado, las pruebas usuales £, 
F y xê pueden no ser válidas. 


12.1 Naturaleza del problema 


El término autocorrelación se define como la “correlación entre miembros de series de observa- 
ciones ordenadas en el tiempo [como en datos de series de tiempo] o en el espacio [como en datos 
de corte transversal]”.? En el contexto de regresión, el modelo clásico de regresión lineal supone 
que no existe tal autocorrelación en las perturbaciones u;. Simbólicamente, 


cov(u;, u¡|lx;, xj) = E(u;u;) =0 Aj (3.2.5) 


En forma sencilla, el modelo clásico supone que el término de perturbación relacionado con una 
observación cualquiera no recibe influencia del término de perturbación relacionado con cual- 
quier otra observación. Por ejemplo, si tratamos con información trimestral de series de tiem- 
po, que implica una regresión de la producción sobre los insumos trabajo y capital, y si, por 
ejemplo, hay una huelga laboral que afecta la producción en un trimestre, no hay razón para pen- 
sar que esta interrupción afectará la producción del trimestre siguiente. Es decir, si la producción 
es inferior en este trimestre, no hay razón para esperar que sea baja en el siguiente. En forma 
similar, si tratamos con información de corte transversal que implica la regresión del gasto de 
consumo familiar sobre el ingreso familiar, no esperaremos que el efecto de un incremento en el 
ingreso de una familia sobre su gasto de consumo incida en el gasto de consumo de otra. 
Sin embargo, si existe tal dependencia, hay autocorrelación. Simbólicamente, 


Eluu)A0  14j (12.1.1) 


En esta situación, la interrupción ocasionada por una huelga este trimestre puede afectar muy 
fácilmente la producción del siguiente trimestre, o los incrementos del gasto de consumo de una 
familia pueden muy bien inducir a otra familia a aumentar su gasto de consumo para no quedar 
rezagada. 

Antes de encontrar la razón de la autocorrelación es esencial aclarar la terminología. Aunque 
hoy en día es común tratar como sinónimos los términos autocorrelación y correlación se- 
rial, algunos autores prefieren diferenciarlos. Por ejemplo, Tintner define autocorrelación como 
“correlación rezagada de una serie dada consigo misma, rezagada por un número de unidades 
de tiempo”, mientras que reserva el término correlación serial para “correlación rezagada entre 


1 Al respecto, véase William H. Greene, Econometric Analysis, 4a. ed., Prentice Hall, Nueva Jersey, 2000, cap. 
11, y Paul A. Rudd, An Introduction to Classical Econometric Theory, Oxford University Press, 2000, cap. 19. 
2 Maurice G. Kendall y William R. Buckland, A Dictionary of Statistical Terms, Hafner Publishing Company, 
Nueva York, 1971, p. 8. 
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dos series diferentes”.? Así, la correlación entre dos series de tiempo como u1, U2, . . . , U10 Y U2, 
u3, . . . , U11, donde la primera es igual a la última rezagada un periodo, es autocorrelación, mien- 
tras que la correlación entre dos series de tiempo como u1, u2, . . . , U10 y V2, V3, . . ., V11, donde u y 
v son dos series de tiempo diferentes, se denomina correlación serial. Aunque la distinción entre 
ambos puede ser útil, en este libro los consideraremos sinónimos. 

Visualicemos algunos patrones razonables de autocorrelación y de no autocorrelación de la 
figura 12.1. Las figuras 12.1a) a d) muestran un patrón distinguible entre las u. La figura 12.1a) 
muestra un patrón cíclico; las figuras 12.15) y c) sugieren una tendencia lineal hacia arriba o 
hacia abajo en las perturbaciones; y la figura 12.1d) indica que hay términos de tendencia tanto 
lineal como cuadrática en las perturbaciones. Sólo la figura 12.1e) indica que no hay un patrón sis- 
temático, y apoya así el supuesto de no autocorrelación del modelo clásico de regresión lineal. 

La pregunta natural es: ¿por qué ocurre la correlación serial? Hay diversas razones, algunas 
de las cuales son las siguientes: 


Inercia 

Una característica relevante de la mayoría de las series de tiempo económicas es la inercia o 
pasividad. Como bien se sabe, las series de tiempo como PNB, índices de precios, producción, 
empleo y desempleo presentan ciclos (económicos). A partir del fondo de la recesión, cuando 
se inicia la recuperación económica, la mayoría de estas series empieza a moverse hacia arriba. 
En este movimiento ascendente, el valor de una serie en un punto del tiempo es mayor que su 
valor anterior. Así, se genera un “impulso” en ellas, y continuará hasta que suceda otra cosa 
(por ejemplo, un aumento en la tasa de interés o en los impuestos, o ambos) para reducirlo. Por 
consiguiente, es probable que, en las regresiones que consideran datos de series de tiempo, las 
observaciones sucesivas sean interdependientes. 


Sesgo de especificación: caso de variables excluidas 

En el análisis empírico, con frecuencia el investigador empieza con un modelo de regresión ra- 
zonable que puede no ser “perfecto”. Después del análisis de regresión, el investigador haría el 
examen post mortem para ver si los resultados coinciden con las expectativas a priori. De no ser 
así, iniciaría “la cirugía”. Por ejemplo, el investigador graficaría los residuos 4; obtenidos de la 
regresión ajustada y observaría patrones como los de las figuras 12.1a) a d). Estos residuos (re- 
presentaciones de las u;) pueden sugerir la inclusión de algunas variables originalmente can- 
didatas pero que no se incluyeron en el modelo por diversas razones. Es el caso del sesgo de 
especificación ocasionado por variables excluidas. Con frecuencia, la inclusión de tales varia- 
bles elimina el patrón de correlación observado entre los residuales. Por ejemplo, suponga que 
tenemos el siguiente modelo de demanda: 


Y, = Br + B2X2 + B3X3: + PaXa + ur (12.1.2) 


donde Y = cantidad de carne de res demandada, X2 = precio de la carne de res, X3 = ingreso del 
consumidor, X4 = precio del cerdo y t = tiempo.* Sin embargo, por alguna razón efectuamos la 
siguiente regresión: 


Y, = Bi + B2Xa + B3X31 + vı (12.1.3) 


Ahora, si (12.1.2) es el modelo “correcto”, el “verdadero” o la relación verdadera, efectuar (12.1.3) 
equivale a permitir que v; = 4X4: + ur. Así, en la medida en que el precio del cerdo afecte el 
consumo de carne de res, el término de error o de perturbación v reflejará un patrón sistemático, 


3 Gerhard Tintner, Econometrics, John Wiley & Sons, Nueva York, 1965. 


4 Por convención, utilizaremos el subíndice t para denotar información de series de tiempo y el subíndice 
usual i para datos de corte transversal. 


FIGURA 12.1 
Patrones de autocorrela- 
ción y no autocorrelación. 
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lo que crea (una falsa) autocorrelación. Una prueba sencilla de esto sería llevar a cabo (12.1.2) 
y (12.1.3) y ver si la autocorrelación observada en el modelo (12.1.3), de existir, desaparece 
cuando se efectúa (12.1.2). Analizaremos el mecanismo real para detectar la autocorrelación en 
la sección 12.6, donde mostraremos que una gráfica de los residuos de las regresiones (12.1.2) y 
(12.1.3) con frecuencia aclara en gran medida el problema de correlación serial. 


5 Si se encuentra que el problema real es de sesgo de especificación y no de autocorrelación, entonces, 
como veremos en el capítulo 13, los estimadores de MCO de los parámetros en la ecuación (12.1.3) pueden 


ser sesgados e inconsistentes. 
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FIGURA 12.2 

Sesgo de especificación: 
Forma funcional 
incorrecta. 


Costo marginal de producción 


Producción 


Sesgo de especificación: forma funcional incorrecta 


Suponga que el modelo “verdadero” o correcto en un estudio de costo-producción es el si- 
guiente: 


Costo marginal; = $1 + b2 producción; + ß3 producción? +u; (12.1.4) 
pero ajustamos el siguiente modelo: 
Costo marginal, = œ; + œ2 producción, + v; (12.1.5) 


La curva de costo marginal correspondiente al “verdadero” modelo se muestra en la figura 12.2, 
junto con la curva de costo lineal “incorrecta”. 

Como se muestra en la figura 12.2, entre los puntos 4 y B la curva de costo marginal li- 
neal sobreestimará consistentemente el costo marginal verdadero, mientras que más allá de estos 
puntos, lo subestimará consistentemente. Este resultado es de esperarse porque el término de 
perturbación v; es, en realidad, igual a producción? + u;, y, por tanto, capta el efecto sistemático 
del término producción? sobre el costo marginal. En este caso, v; reflejará autocorrelación por el 
uso de una forma funcional incorrecta. En el capítulo 13 consideraremos diversos métodos para 
detectar sesgos de especificación. 


Fenómeno de la telaraña 


La oferta de muchos productos agrícolas refleja el llamado fenómeno de la telaraña, en donde la 
oferta reacciona al precio con un rezago de un periodo debido a que la instrumentación de las de- 
cisiones de oferta tarda algún tiempo (periodo de gestación). Por tanto, en la siembra de cultivos 
al principio de año, los agricultores reciben influencia del precio prevaleciente el año anterior, de 
forma que su función de oferta es 


Oferta, = B1 + P2P,-1 + u: (12.1.6) 


Suponga que al final del periodo £, el precio P, resulta inferior a P,_¡. Por consiguiente, es muy 
probable que en el periodo t + 1 los agricultores decidan producir menos de lo que produjeron 
en el periodo £. Obvio, en esta situación no esperaremos que las perturbaciones u; sean aleatorias, 
porque si los agricultores producen excedentes en el año £, es probable que reduzcan su produc- 
ción en ź + 1, y así sucesivamente, para generar un patrón de telaraña. 


Rezagos 


En una regresión de series de tiempo del gasto de consumo sobre el ingreso no es extraño 
encontrar que el gasto de consumo en el periodo actual dependa, entre otras cosas, del gasto 
de consumo del periodo anterior. 
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Es decir, 
Consumo, = 6 + fa ingreso, + 63 consumo, + ur (12.1.7) 


Una regresión como (12.1.7) se conoce como autorregresión porque una variable explicativa es 
el valor rezagado de la variable dependiente. (Estudiaremos estos modelos en el capítulo 17.) El 
razonamiento de un modelo como (12.1.7) es sencillo. Los consumidores no cambian sus hábitos 
de consumo fácilmente por razones psicológicas, tecnológicas o institucionales. Ahora, si ignora- 
mos el término rezagado en (12.1.7), el término de error resultante reflejará un patrón sistemático 
debido a la influencia del consumo rezagado en el consumo actual. 


“ 


anipulación ” de datos 

En el análisis empírico con frecuencia se “manipulan” los datos simples. Por ejemplo, en las 
regresiones de series de tiempo con datos trimestrales, por lo general estos datos provienen de 
datos mensuales a los que se agregan simplemente las observaciones de tres meses y se divide 
la suma entre 3. Este procedimiento de promediar las cifras suaviza en cierto grado los datos al 
eliminar las fluctuaciones en los datos mensuales. Por consiguiente, la gráfica referente a datos 
trimestrales aparece mucho más suave que la que contiene los datos mensuales, y este suaviza- 
miento puede, por sí mismo, inducir un patrón sistemático en las perturbaciones, lo que agrega 
autocorrelación. Otra fuente de manipulación es la interpolación o extrapolación de datos. Por 
ejemplo, el Censo de Población se realiza cada 10 años en Estados Unidos, y los dos últimos se 
efectuaron en 1990 y 2000. Ahora bien, si necesitamos datos para algún año comprendido en el 
periodo intercensal, la práctica común consiste en interpolar con base en algunos supuestos ad 
hoc. Todas estas técnicas de “manejo” podrían imponer sobre los datos un patrón sistemático que 
quizá no estaría presente en los datos originales.% 


Transformación de datos 
Como un ejemplo, considere el siguiente modelo: 


Y, = Bi + BX; + Ut (12.1.8) 


donde, digamos, Y = gasto de consumo y X = ingreso. Como (12.1.8) es válida para cada pe- 
riodo, también lo es para el periodo anterior (t — 1). Así, podemos expresar (12.1.8) como 


Y,—1 = pi + 2X11 + 411 (12.1.9) 


Y,_1, Xı—1 y u1 se conocen como los valores rezagados de Y, X y u, respectivamente; en este 
caso están rezagados un periodo. Más tarde, en este mismo capítulo y en varias partes del libro, 
veremos la importancia de dichos valores rezagados. 

Ahora bien, si restamos (12.1.9) de (12.1.8), obtenemos 


AY, = b AX, + Au, (12.1.10) 


donde A, llamado operador de primeras diferencias, indica que se toman diferencias sucesivas 
de las variables en cuestión. Por tanto, AY, = (Y, — Y,_1), AX; = (X; — X,_1) y Aur = (ut — u,_1). 
Para propósitos empíricos, escribimos (12.1.10) como 


AY, = BAX, + v, (12.1.11) 


donde v, = Au; = (us — u1). 


6 Al respecto, véase William H. Greene, op. cit., p. 526. 
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La ecuación (12.1.9) se conoce como la forma de nivel, y la ecuación (12.1.10), como la 
forma en (primeras) diferencias. Ambas formas son frecuentes en el análisis empírico. Por 
ejemplo, si en (12.1.9) Y y X representan los logaritmos del gasto de consumo y el ingreso, en- 
tonces en (12.1.10) AY y A X representarán los cambios en los logaritmos del gasto de consumo 
y del ingreso. Pero, como sabemos, un cambio en el logaritmo de una variable —si se multiplica 
por 100— es un cambio relativo, o un cambio porcentual. De modo que, en vez de estudiar las 
relaciones entre variables en la forma de nivel, podemos interesarnos por las relaciones en la 
forma de crecimiento. 

Ahora bien, si el término de error en (12.1.8) satisface los supuestos usuales de los MCO, 
sobre todo el de inexistencia de autocorrelación, podemos probar que el término de error v, en 
(12.1.11) está autocorrelacionado. (La prueba se encuentra en el apéndice 12A, sección 12A.1.) 
Los modelos como (12.1.11) se denominan modelos dinámicos de regresión; es decir, son mo- 
delos con regresadas rezagadas. Estudiaremos con detalle estos modelos en el capítulo 17. 

Lo importante del ejemplo anterior es que a veces la autocorrelación puede inducirse como 
resultado de transformar el modelo original. 


No estacionariedad 


Mencionamos en el capítulo 1 que, al trabajar con datos de series de tiempo, quizá habría que 
averiguar si una determinada serie de tiempo es estacionaria. Aunque el tema de no estacionarie- 
dad se analiza con mayor detalle en los capítulos de econometría de series de tiempo de la parte 
5 del libro, una serie de tiempo es estacionaria, de manera informal, si sus características (por 
ejemplo, media, varianza y covarianza) son invariantes respecto del tiempo; es decir, no cambian 
en relación con el tiempo. Si no es así, tenemos una serie de tiempo no estacionaria. 

Como veremos en la parte 5, en un modelo de regresión como (12.1.8) es muy probable que 
Y y X sean no estacionarias, y por consiguiente, que el error u también sea no estacionario.” En 
ese caso, el término de error mostrará autocorrelación. 

Así, en resumen, hay varias razones por las que el término de error en un modelo de regresión 
pueda estar autocorrelacionado. En lo que resta del capítulo investigaremos con cierto detalle los 
problemas planteados por la autocorrelación y lo que se puede hacer al respecto. 

Cabe notar también que la autocorrelación puede ser positiva [figura 12.3a)] o negativa, aun- 
que la mayoría de las series de tiempo económicas por lo general muestra autocorrelación posi- 
tiva, pues casi todas se desplazan hacia arriba o hacia abajo en extensos periodos y no exhiben un 
movimiento ascendente y descendente constante, como el de la figura 12.35). 


12.2 Estimación de MCO en presencia de autocorrelación 


¿Qué sucede con los estimadores de MCO y sus varianzas si introducimos autocorrelación en 
las perturbaciones con la suposición de que E(uru+s) 4 0 (s 4 0), pero conservamos todos los 
demás supuestos del modelo clásico?* Observe de nuevo que ahora utilizamos el subíndice t en 
las perturbaciones para destacar que se trata de datos de series de tiempo. 

Regresamos al modelo de regresión de dos variables para explicar sus ideas básicas, a saber, 
Y, = Bi + B2X, + u. Para orientar el camino, ahora debemos suponer el mecanismo que gene- 
ran las u, pues E(u¿u,ys) 4 0 (s 4 0) es muy general como supuesto para ser de alguna utilidad 


7 Como también veremos en la parte 5, aunque X y Y sean no estacionarias, es posible encontrar que u lo 
sea. Más adelante analizaremos lo que esto implica. 

8 Si s = 0, obtenemos E (u2). Como E(u;) = O por hipótesis, E (u?) representará la varianza del término de 
error, que obviamente es diferente de cero (¿por qué?). 


FIGURA 12.3 

a) Autocorrelación posi- 
tiva y b) autocorrelación 
negativa. 
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práctica. Como punto de partida, o primera aproximación, podemos suponer que los términos de 
error o perturbación se generan de la siguiente manera: 


Ut = PUj-] + €, =1l<p<l (12.2.1) 


donde p (= rho) se conoce como coeficiente de autocovarianza y e, es la perturbación estocás- 
tica establecida de forma que satisface los supuestos habituales de MCO, a saber, 


Ele) =0 


var (£;) = 0? (12.2.2) 


COV (Er, Et+s) =0 


s #0 


En los textos de ingeniería, un término de error con las propiedades anteriores a menudo se 
conoce como término de error de ruido blanco. Lo que (12.2.1) postula es que el valor del tér- 
mino de perturbación en el periodo ź es igual a o multiplicada por su valor en el periodo anterior 
más un término de error puramente aleatorio. 

El esquema (12.2.1) se conoce como esquema autorregresivo de primer orden de Markov, 
o simplemente esquema autorregresivo de primer orden, y suele denotarse como AR(1). El 
nombre autorregresivo es apropiado porque (12.2.1) puede interpretarse como la regresión de u, 
sobre sí misma con un rezago de un periodo. Es de primer orden porque sólo participan u, y su 
valor pasado inmediato; es decir, el rezago máximo es 1. Si el modelo fuera u, = p¡4/_1 + P24/-2 
+ e, sería un AR(2), o esquema autorregresivo de segundo orden, y así sucesivamente. Estudia- 
remos esos esquemas de orden superior en la parte 5, en los capítulos sobre la econometría de 
series de tiempo. 


420 Parte Dos Flexibilización de los supuestos del modelo clásico 


A propósito, observe que p, el coeficiente de autocovarianza en (12.2.1), también se interpreta 
como el coeficiente de autocorrelación de primer orden, o, en forma más precisa, coeficiente 
de autocorrelación del rezago 1.? 

Con el esquema AR(1) se demuestra que (véase el apéndice 12A, sección 12A.2): 


2 
_ 2 O; 
var (u,) = E (u7) = Er (12.2.3) 
2 
COV (Ut, Ut+s) = E(Utut-s) = P`- z z (12.2.4) 
=p 
cor (Ut, Uts) = p° (12.2.5) 


donde cov(u;, uts) significa la covarianza entre los términos de error de s periodos distantes, y 
cor(u;, Ut+s), la correlación entre los términos de error de s periodos distantes. Note que, debido 
a la propiedad de simetría de las covarianzas y las correlaciones, cov(u;, Ut+s) = COV(Un Ut—s) Y 
cor(u;, Uy; 5) = COr(U;, Ups). 

Como p es una constante con valor entre —1 y +1 (12.2.3), muestra que, con el esquema 
AR(1), la varianza de u, es todavía homoscedástica; no obstante, u, está correlacionada no sólo 
con su valor inmediato anterior, sino con sus valores de varios periodos anteriores. Resulta crítico 
notar que |p| < 1; es decir, el valor absoluto de p es menor que 1. Si, por ejemplo, p es igual a 
1, las varianzas y covarianzas listadas antes no están definidas. Si |p| < 1, se dice que el proceso 
AR(1) en (12.2.1) es estacionario; es decir, la media, la varianza y la covarianza de u; no cambian 
respecto del tiempo. Si |p| es menor que 1, resulta claro de (12.2.4) que el valor de la covarianza 
declinará conforme se retroceda al pasado distante. En breve veremos la utilidad de los resultados 
anteriores. 

Una razón para utilizar el proceso AR(1) no es sólo su simplicidad en comparación con los 
esquemas AR de orden superior, sino porque es muy útil para muchas aplicaciones. Además, hay 
gran cantidad de trabajo teórico y empírico sobre el esquema AR(1). 

Ahora regresemos al modelo de regresión con dos variables: Y, = 1 + 2X; + ur. Sabemos 
del capítulo 3 que el estimador de MCO del coeficiente de pendiente es 


Ê Y xy; 
A = 
NA 


(12.2.6) 


y su varianza está dada por 


A o? 
var (f2) = Se (12.2.7) 


en donde las letras minúsculas denotan como siempre la desviación de sus valores medios. 


? Este nombre se justifica fácilmente. Por definición, el coeficiente de correlación (poblacional) entre u; y 
Ut es 


E ([us — E(ue)llue-1 — Elue-1))) 


y var (u¿)./var (ut—1) 
_ E(ufur-1) 
 var(Ur1) 


porque E (u;) = O para cada t y var(u;) = var(u;_1), pues aún es válido el supuesto de homoscedasticidad. 
El lector puede ver que p es también el coeficiente de pendiente en la regresión de u; sobre u;_7. 
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Ahora, con el esquema AR(1), se muestra que la varianza de este estimador es: 


var (Bari = Y 
(12.2.8) 


donde var(B>) ARI Significa la varianza de B> con el esquema autorregresivo de primer orden. 

Una comparación de (12.2.8) con (12.2.7) muestra que la primera es igual a la última más 
un término que depende de p, así como de las autocorrelaciones muestrales entre los valores 
tomados por la regresora X' en varios rezagos.'" Y no podemos predecir que la var(B>) será menor 
o mayor que var(b2)arı [véase ecuación (12.4.1), más adelante]. Por supuesto, si p es cero, las 
dos fórmulas coincidirán, como debe ser (¿por qué?). Asimismo, si las correlaciones entre los 
valores sucesivos de la regresora son muy pequeñas, la varianza usual de MCO del estimador 
de pendiente no estará muy sesgada. Sin embargo, como principio general, las dos varianzas no 
serán iguales. 

Para que se dé una idea respecto de la diferencia entre las varianzas dadas en (12.2.7) y 
(12.2.8), suponga que la regresora X también sigue el esquema autorregresivo de primer orden 
con un coeficiente de autocorrelación de r. Se demuestra entonces que (12.2.8) se reduce a: 


Ñ o? L+rp pS l+rp 
_ Sveti 12.2.9 
var (B2)ar(1) ar (i — 2) var (2)mcO (i — 2) ( ) 


Si, por ejemplo, r = 0.6 y p = 0.8, con (12.2.9) podemos verificar que var(Bdar¡ = = 2.8461 
var(B2)mco- Para expresarlo de otra manera, var(B2)mco = =z SAKI var(B>) arı = 0.3513 var(ĝ2) ARI- 
Es decir, la fórmula usual MCO [es decir, (12.2.7)] subestimará la varianza de (Êz) AR] aproxima- 
damente 65%. Como resulta obvio, esta respuesta es específica para los valores dados de r y p. 
Pero lo importante de este ejercicio es advertir que aplicar a ciegas las fórmulas usuales de MCO 
para calcular las varianzas y los errores estándar de los estimadores de MCO pueden generar 
resultados muy erróneos. E 

Suponga que seguimos utilizando el estimador de MCO £} y ajustamos la fórmula de varianza 
habitual, con el esquema AR(1). Es decir empleamos el $ dado por (12.2.6) pero con la fórmula 
de varianza dada por (12.2.8). ¿Cúales son ahora las propiedades de 62? Es fácil probar que 62 
es aún lineal e insesgado. En realidad, como se observa en el apéndice 3A, sección 3A.2, no se 
requiere el supuesto de no correlación serial ni el de no heteroscedasticidad para demostrar que 
Bo es insesgado. ¿Es Ba aún MELI? Por desgracia, no; en la clase de estimadores lineales e in- 
sesgados, no tiene varianza mínima. En resumen, aunque ĝ es lineal e insesgado, no es eficiente 
(en términos relativos, por supuesto). El lector notará que este hallazgo es muy similar al de que 
ß2 es menos eficiente en presencia de heteroscedasticidad. Allí vimos que el estimador eficien- 
te era el estimador de mínimos cuadrados ponderados, BE, dado en (11.3.8), un caso especial 
del estimador de mínimos cuadrados generalizados (MCG). En el caso de autocorrelación, 
¿podemos encontrar un estimador que sea MELI? La respuesta es sí, como veremos en la si- 
guiente sección. 


10 Observe que el término r = Y” xtxt+1/ Y xê es la correlación entre X+ y Xt (O Xt-1, pues el coeficiente 
de correlación es simétrico); r? = Y xtXt+2/ Y. x? es la correlación entre las X rezagadas dos periodos, 
etcétera. 
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12.3 Estimador MELI en presencia de autocorrelación 


Al continuar con el modelo de dos variables y suponer el proceso AR(1), es posible demostrar 
que el estimador MELI de £; está dado por la siguiente expresión:!' 


2mco — Pra — PO = YI) 


; Daer z moa) 


donde C es un factor de corrección que puede ignorarse en la práctica. Observe que el subíndice 
t varía ahora de żt = 2 a t = n. Y su varianza está dada por 


2 
A O 
var BMO6 = — +D (12.3.2) 
; o — px) 


donde D también es un factor de corrección que puede ignorarse en la práctica. (Véase el ejer- 
cicio 12.18.) 

El estimador pes como lo indica el superíndice, se obtiene por el método de MCG. Como 
mencionamos en el capítulo 11, en MCG se incorpora directamente cualquier información adi- 
cional que se tenga (por ejemplo, la naturaleza de la heteroscedasticidad o de la autocorrelación) 
en el proceso de estimación mediante la transformación de variables, mientras que en MCO tal 
información adicional no se considera directamente. Como puede ver, el estimador de MCG de 
ß2 dado en (12.3.1) incorpora el parámetro de autocorrelación p en la fórmula de estimación, 
mientras que la fórmula de MCO dada en (12.2.6) simplemente lo ignora. La intuición indica que 
por esta razón el estimador de MCG es MELI y el estimador de MCO no lo es; el estimador de 
MCG emplea al máximo la información disponible.'? No es preciso mencionar que si p = 0, no 
hay información adicional que deba considerarse y, por tanto, los estimadores de MCG y MCO 
son idénticos. 

En resumen, con autocorrelación, el estimador de MCG dado en (12.3.1) es MELI y la va- 
rianza mínima está dada ahora por (12.3.2) y no por (12.2.6), ni, obvio, por (12.2.7). 


Nota técnica 


Como observamos en el capítulo anterior, el teorema de Gauss-Markov proporciona sólo la con- 
dición suficiente para que los MCO sean MELI. Las condiciones suficientes y necesarias para 
que los MCO sean MELI las establece el teorema de Kruskal, mencionado en el capítulo ante- 
rior. Así, en algunos casos los MCO pueden ser MELL a pesar de la autocorrelación. Pero tales 
casos son poco frecuentes en la práctica. 

¿Qué sucede si se continúa trabajando despreocupadamente con el procedimiento MCO usual, 
a pesar de la autocorrelación? La respuesta se da en la siguiente sección. 


11 Para las demostraciones, véase Jan Kmenta, Elements of Econometrics, Macmillan, Nueva York, 1971, 

pp. 274-275. El factor de corrección C se refiere a la primera observación (Y1, X1). Sobre este punto, véase el 
ejercicio 12.18. 

12 La prueba formal de que MCS es MELI se encuentra en Kmenta, ibid. Sin embargo, la tediosa prueba al- 
gebraica se simplifica considerablemente mediante notación matricial. Véase J. Johnston, Econometric 
Methods, 3a. ed., McGraw-Hill, Nueva York, 1984, pp. 291-293. 
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12.4 Consecuencias de utilizar MCO en presencia 


de autocorrelación 


FIGURA 12.4 
Intervalos de confianza a 
95% de MCG y MCO. 


Como en la heteroscedasticidad, en presencia de autocorrelación los estimadores continúan 
siendo lineales e insesgados, al igual que consistentes, y están distribuidos de forma asintótica- 
mente normal, pero dejan de ser eficientes (es decir, no tienen varianza mínima). ¿Qué sucede 
entonces con los procedimientos usuales de pruebas de hipótesis si se conservan los estimadores 
de MCO? De nuevo, como en el caso de heteroscedasticidad, se distinguen dos casos. Por razo- 
nes pedagógicas continuaremos trabajando con el modelo de dos variables, aunque el siguiente 
análisis puede extenderse a regresiones múltiples sin mucho esfuerzo.!* 


Estimación por MCO tomando en cuenta la autocorrelación 


Como se mencionó, Bo no es MELI, y aunque se fuera a usar var( Ba) Ar1, es probable que los inter- 
valos de confianza derivados de allí sean más amplios que los basados en el procedimiento MCG, 
Como señala Kmenta, es probable que éste sea el resultado aunque el tamaño de la muestra se 
incremente indefinidamente.!* Es decir, Ba no es asintóticamente eficiente. La implicación de este 
hallazgo para pruebas de hipótesis es clara: es probable que se declare un coeficiente estadística- 
mente no significativo (es decir, no diferente de cero) aunque en realidad pueda serlo (es decir, si 
se basa en el procedimiento MCG correcto). Esta diferencia se ve claramente en la figura 12.4. 
En ella se muestran intervalos de confianza a 95% de MCO [AR(1)] y MCG suponiendo que el 
verdadero 2 = 0. Considere una estimación particular de 62, por ejemplo, b2. Como bz cae en 
el intervalo de confianza de MCO, podemos aceptar la hipótesis de que el verdadero $) es cero con 
95% de confianza. Pero si utilizáramos el intervalo de confianza de MCG (correcto), podríamos 
rechazar la hipótesis nula de que el verdadero $ es cero, pues bz cae en la región de rechazo. 

El mensaje es: para establecer intervalos de confianza y probar hipótesis, debe utilizarse 
MCG y no MCO, aunque los estimadores derivados de este último sean insesgados y consis- 
tentes. (No obstante, véase la sección 12.11.) 


q _ AAA i- 
Intervalo a 95% de MCG 


Intervalo a 95% de MCO 


Estimación por MCO ignorando la autocorrelación 

La situación es potencialmente muy grave si no sólo utilizamos Ê sino también var ( Ê) = 
0?/ Y x?, con lo cual se ignora por completo el problema de autocorrelación; es decir, creemos 
erróneamente que los supuestos usuales del modelo clásico se mantienen. Surgirán errores por 
las siguientes razones: 


1. Es probable que la varianza de los residuos 9? = Y ù? /(n — 2) subestime la verdadera o°. 
2. Como resultado, es probable que se sobreestime R?. 


13 Pero el álgebra matricial se convierte casi en una necesidad para evitar tediosas manipulaciones 
algebraicas. 


14 Véase Kmenta, op. cit., pp. 277-278. 
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3. Aunque 0? no esté subestimada, var(B2) puede subestimar var(Bdar: [ecuación (12.2.8)], su 
varianza con autocorrelación (de primer orden), pese a que esta última sea ineficiente compa- 
rada con var(8MC6, 

4. Por consiguiente, las pruebas de significancia £ y F usuales dejan de ser válidas y, de aplicarse, 
es probable que conduzcan a conclusiones erróneas sobre la significancia estadística de los 
coeficientes de regresión estimados. 


Para establecer algunas de estas proposiciones, regresemos al modelo de dos variables. Sabe- 
mos, del capítulo 3, que según el supuesto clásico 


22 
6? = 2; 
(n — 2) 


constituye un estimador insesgado de o°, es decir, E(6?) = 0?. Pero si hay autocorrelación, dada 
por AR(1), se ve que 


on- [2/0 — p)1—2pr) 
n-2 


E(6?) (12.4.1) 


donde r = ya x,x,1/ Yy_¡ x?, que puede interpretarse como el coeficiente de correlación 
(muestral) entre valores sucesivos de las X.'*% Si p y r son positivos (lo cual no es un supuesto 
improbable para la mayoría de las series de tiempo económicas), es claro de (12.4.1) que £(6?) 
< a?; es decir, la fórmula usual de varianza residual, en promedio, subestimará la verdadera o°. 
En otras palabras, 6? estará sesgada hacia abajo. Sobra decir que este sesgo en 6? se transmitirá 
a var(ĝ2), pues, en la práctica, esta última se estima con la fórmula 6?/ Pa Ñ 

Sin embargo, aunque o? no se subestime, var(B>) es un estimador sesgado de var(B>2)ar1, lo 
cual se ve fácilmente al comparar (12.2.7) con (12.2.8),'% pues las dos fórmulas no son iguales. 
En realidad, si p es positivo (lo cual sucede en la mayoría de las series de tiempo económicas) 
y las X están correlacionadas positivamente (que también sucede en la mayoría de las series de 
tiempo económicas), es claro que 


var (ĝ2) < var(B2)ar: (12.4.2) 


es decir, la varianza de MCO usual de $ subestima su varianza con AR(1) [véase la ecuación 
(12.2.9)]. Por consiguiente, si utilizamos var(B2), inflaremos la precisión o exactitud (es decir, 
subestimamos el error estándar) del estimador B>. Como resultado, al calcular la razón £ como 
t= Ê /ee ($2) (según la hipótesis de que 2 = 0), sobreestimamos el valor de £, y, por tanto, la 
significancia estadística de $, estimado. La situación tiende a empeorar si además o? está subes- 
timada, como ya observamos. 

Para ver la forma en que quizá MCO subestime 0? y la varianza de $», realicemos el siguiente 
experimento Monte Carlo. Suponga que en el modelo de dos variables “conocemos” las verda- 
deras $; = 1 y f2 = 0.8. Por consiguiente, la FRP estocástica es 


Y, =1.0+0.8X, + u; (12.4.3) 


15 Véase S.M. Goldfeld y R.E. Quandt, Nonlinear Methods in Econometrics, North Holland Publishing Com- 
pany, Ámsterdam, 1972, p. 183. A propósito, observe que si los errores están autocorrelacionados positi- 
vamente, el valor R? tiende a tener un sesgo hacia arriba, es decir, tiende a ser más grande que el R? en 
ausencia de tal correlación. 


16 Para una prueba formal, véase Kmenta, op. cit., p. 281. 


TABLA 12.1 
Ejemplo hipotético de 
términos de error posi- 
tivamente autocorrela- 
cionados 
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Et u, = 0.7U;-1 + ef 

0 0 uo = 5 (supuesto) 

1 0.464 Uu =0.7(5) + 0.464 = 3.964 

2 2.026 u2 = 0.7 (3.964) + 2.0262 = 4.8008 

3 2.455 u3 = 0.7(4.8010) + 2.455 = 5.8157 

4 —0.323 u4 = 0.7(5.8157) — 0.323 = 3.7480 

5 —0.068 us = 0.7(3.7480) — 0.068 = 2.5556 

6 0.296 us = 0.7(2.5556) + 0.296 = 2.0849 

Y —0.288 u7 = 0.7(2.0849) — 0.288 = 1.1714 

8 1.298 ug = 0.7(1.1714) + 1.298 = 2.1180 

9 0.241 ug =0.7(2.1180) + 0.241 = 1.7236 
10 0.957 u10 =0.7(1.7236) — 0.957 = 0.2495 


Nota: Los datos de €, provienen de 4 Million Random Digits and One Hundred Thousand Deviates, 
Rand Corporation, Santa Mónica, California, 1950. 


Por tanto, 
E(Y;,| X) =1.0+0.8X, (12.4.4) 


lo cual da la verdadera linea de regresión poblacional. Supongamos que las u; se generan me- 
diante el esquema autorregresivo de primer orden de la siguiente manera: 


u, =0.74,-1 + €, (12.4.5) 


donde e, satisface todos los supuestos de MCO. Además, por conveniencia, supongamos que los 
e, están normalmente distribuidos con media cero y varianza unitaria (= 1). La ecuación (12.4.5) 
postula que las perturbaciones consecutivas están correlacionadas positivamente, con un coefi- 
ciente de autocorrelación de +0.7, un grado más bien alto de dependencia. 

Ahora, con una tabla de números aleatorios normales con media cero y varianza unitaria, ge- 
neramos los 10 números aleatorios de la tabla 12.1, mediante el esquema (12.4.5) generamos uz. 
Para iniciar el esquema necesitamos especificar el valor inicial de u, por ejemplo, uy = 5. 

Al graficar las u, generadas en la tabla 12.1 obtenemos la figura 12.5, la cual muestra que, al 
principio, cada u, sucesiva tiene un valor más alto que su valor anterior, y después, por lo regular, 
es menor que su valor anterior, para mostrar, en general, una autocorrelación positiva. 

Ahora suponga que los valores de X están dados en 1, 2, 3,..., 10. Entonces, con estas X, 
podemos generar una muestra de 10 valores Y de (12.4.3) y de los valores de u, dados en la tabla 
12.1. Los detalles se presentan en la tabla 12.2. Si con los datos de la tabla 12.2, efectuamos 
la regresión de Y sobre X, obtenemos la siguiente regresión (muestral): 


Y, = 6.5452 + 0.3051X, 


(0.6153) (0.0992) (12.4.6) 


t=(10.6366) (3.0763) 
r? = 0.5419 ô? = 0.8114 


mientras que la verdadera línea de regresión es como la dada por (12.4.4). Ambas líneas de 
regresión se muestran en la figura 12.6, la cual señala claramente cuánto distorsiona la línea 
de regresión ajustada a la verdadera línea de regresión; ésta subestima en gran medida al ver- 
dadero coeficiente de pendiente pero sobreestima al intercepto verdadero. (Sin embargo, observe 
que los estimadores de MCO aún son insesgados.) 

La figura 12.6 también muestra por qué es probable que la verdadera varianza de u; esté sub- 
estimada por el estimador 6?, el cual se calcula a partir de las ů;. Las 41; suelen estar cerca de 
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FIGURA 12.5 va 
Correlación generada 
por el esquema 6+ 
u;=0.74, + €, 
(tabla 12.1). 
K i= 
4L 
3+P 
2L 
1E 
| | | | | | | | | | Ti 
O i 2 3 4 5 6 7 8 EREA 
TABLA 12.2 X: u Ye = 1.0 + 0.8X, + ur 
Generación de valores 
muestrales de Y 1 3.9640 Y, = 1.0 + 0.8(1) + 3.9640 = 5.7640 
2 4.8010 Y2 = 1.0 + 0.8(2) + 4.8008 = 7.4008 
3 5.8157 Y3 = 1.0 + 0.8(3) + 5.8157 = 9.2157 
4 3.7480 Y4 = 1.0 + 0.8(4) + 3.7480 = 7.9480 
5 2.5556 Ys = 1.0 + 0.8(5) + 2.5556 = 7.5556 
6 2.0849 Ye = 1.0 + 0.8(6) + 2.0849 = 7.8849 
7 1.1714 Y, = 1.0 + 0.8(7) + 1.1714 = 7.7714 
8 2.1180 Ys = 1.0 + 0.8(8) + 2.1180 = 9.5180 
9 1.7236 Yo = 1.0 + 0.8(9) + 1.7236 = 9.9236 
10 0.2495 Yio = 1.0 + 0.8(10) + 0.2495 = 9.2495 


Nota: Los datos de u, provienen de la tabla 12.1. 


la línea ajustada (lo cual se debe al procedimiento MCO) pero se desvían sustancialmente de la 
verdadera FRP. Por tanto, no dan una imagen correcta de u;. Para tener una mejor idea del grado 
en que se subestima el verdadero valor de 0? suponga que efectuamos otro experimento de mues- 
treo. Con los valores de X, y e, de las tablas 12.1 y 12.2, suponga que p = 0, es decir, que no hay 
autocorrelación. La nueva muestra de valores de Y, así generados, está en la tabla 12.3. 
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FIGURA 12.6 Y 
FRP verdadera y línea de i 
regresión estimada para 10- : 


Y, = 6.5452 + 0.3051X, 
los datos de la tabla 12.2. ° ¿= 6.5452 + 0.3051X, 


Y, = 1 +0.8X, 
~S FRP verdadera 


| | | i | 
0 2 4 6 8 10 x 
Hasa a Xi er = U Y, = 1.0 + 0.8X; + er 
Muestra de valores Y 
con correlación serial 1 0.464 2.264 
igual a cero 2 2.026 4.626 
3 2.455 5.855 
4 0.323 21877 
5 —0.068 4.932 
6 0.296 6.096 
7 —0.288 6.312 
8 1.298 8.698 
9 0.241 8.441 
10 —0.957 8.043 


Nota: Como no hay autocorrelación, las u; y e, son idénticas. Las e, se 
tomaron de la tabla 12.1. 


La regresión basada en la tabla 12.3 es la siguiente: 


Y, = 2.5345 + 0.6145X, 
(0.6796) (0.1087) 
t= (3.7910) (5.6541) 
r2=0.7997 ô? = 0.9752 


(12.4.7) 


Esta regresión es mucho más cercana a la “verdadera” porque las Y son ahora en esencia aleato- 
rias. Observe que ĉ? aumentó de 0.8114 (p = 0.7) a 0.975 (o = 0), y también que aumentaron 
los errores estándar de $¡ y £2. Este resultado coincide con los resultados teóricos ya conside- 
rados. 
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12.5 Relación entre salarios y productividad en el sector 


de negocios de Estados Unidos, 1960-2005 


TABLA 12.4 

Índices de remuneración 
real y productividad en 
Estados Unidos, 1960- 
2005 (cifras de los índi- 
ces, 1992 = 100; datos 
trimestrales ajustados 
por estacionalidad) 


Fuente: Economic Report of the 
President, 2007, tabla B-49. 


Ahora que analizamos las consecuencias de la autocorrelación, la pregunta obvia es: ¿cómo de- 
tectarla y corregirla? Antes de adentrarnos en esos temas, consideremos un ejemplo concreto. La 
tabla 12.4 proporciona información sobre índices de remuneración real por hora Y (RCOMPB) y 
producción por hora X (PRODB) en el sector de negocios de la economía de Estados Unidos de 
1960 a 2005; la base de los índices es 1992 = 100. 

Primero graficamos los datos de Y y X, con lo que obtenemos la figura 12.7. Como se espera 
que la relación entre la remuneración real y la productividad del trabajo sea positiva, no sor- 
prende que las dos variables estén positivamente relacionadas. Lo que sí sorprende es que su 
relación sea casi lineal, aunque se da alguna pista de que, en niveles más altos de productividad, 
la relación entre ambas podría ser menos lineal. En consecuencia, decidimos estimar un modelo 
lineal y un log-lineal, con los siguientes resultados: 


Y, = 32.7419 + 0.6704X, 


ee= (1.3940) (0.0157) 


t = (23.4874) (42.7813) (12.5.1) 
r? = 0.9765 d = 0.1739 ô = 2.3845 

Año Y X Año Y X 

1960 60.8 48.9 1983 90.3 83.0 
1961 62.5 50.6 1984 90.7 85.2 
1962 64.6 52.9 1985 92.0 87.1 
1963 66.1 55.0 1986 94.9 89.7 
1964 67.7 56.8 1987 95.2 90.1 
1965 69.1 58.8 1988 96.5 91.5 
1966 71.7 61.2 1989 95.0 92.4 
1967 73.5 62.5 1990 96.2 94.4 
1968 76.2 64.7 1991 97.4 95.9 
1969 77.3 65.0 1992 100.0 100.0 
1970 78.8 66.3 1993 99.7 100.4 
1971 80.2 69.0 1994 99.0 101.3 
1972 82.6 71.2 1995 98.7 101.5 
1973 84.3 73.4 1996 99.4 104.5 
1974 83.3 72.3 1997 100.5 106.5 
1975 84.1 74.8 1998 105.2 109.5 
1976 86.4 77.1 1999 108.0 112.8 
1977 87.6 78.5 2000 112.0 116.1 
1978 89.1 79.3 2001 113.5 119.1 
1979 89.3 79.3 2002 115.7 124.0 
1980 89.1 79.2 2003 117.7 128.7 
1981 89.3 80.8 2004 119.0 132.7 
1982 90.4 80.1 2005 120.2 135.7 


Notas: Y = índice de remuneración real por hora, sector de negocios (1992 = 100). 
X = índice de producción, sector de negocios (1992 = 100). 


FIGURA 12.7 

Índice de remuneración 
(Y) e índice de productivi- 
dad (X), Estados Unidos, 
1960-2005. 
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130p 


120 | Qo 


100 + y o° 


80 H a 


donde d es el estadístico Durbin-Watson, que analizaremos en breve. 


mY, = 1.6067 + 0.6522 In X, 
ee= (0.0547) (0.0124) 
t = (29.3680) (52.7996) (12.5.2) 
r? = 0.9845 d=0.2176  6=0.0221 


En vista de que el modelo anterior es de doble logaritmo, el coeficiente de la pendiente repre- 
senta la elasticidad. En el caso presente, observamos que si la productividad de la mano de obra 
aumenta 1%, la remuneración promedio se incrementa alrededor de 0.65%. 

Cualitativamente, ambos modelos dan resultados semejantes. En los dos casos, los coeficien- 
tes estimados son “muy” significativos, como indican los altos valores f. En el modelo lineal, si 
el índice de productividad aumenta una unidad, en promedio, el de remuneración se incrementa 
casi 0.67 unidades. En el modelo log-lineal, al ser el coeficiente de pendiente una elasticidad 
(¿por qué?), tenemos que si el índice de productividad se incrementa 1%, en promedio, el índice 
de remuneración real aumenta casi 0.65%. 

¿Cuán confiables son los resultados en (12.5.1) y (12.5.2) si existe autocorrelación? Como ya 
establecimos, si hay autocorrelación, los errores estándar estimados están sesgados, y como 
resultado, las razones f estimadas no son confiables. Obviamente necesitamos averiguar si en los 
datos hay autocorrelación. En la siguiente sección analizamos varios métodos para detectar la 
autocorrelación. Ilustraremos estos métodos con el modelo log-lineal (12.5.2). 


12.6 Detección de la autocorrelación 


I. Método gráfico 

Recuerde que el supuesto de no autocorrelación del modelo clásico se relaciona con las perturba- 
ciones poblacionales us, las cuales no pueden observarse directamente. En su lugar disponemos 
de valores sustitutos, los residuos ĉ,, a partir del procedimiento usual MCO. Aunque las 4, no son 


430 Parte Dos Flexibilización de los supuestos del modelo clásico 


FIGURA 12.8 
Residuos (amplificados 
100 veces) y residuos 
estandarizados de la re- 
gresión de salarios sobre 


productividad (forma log: 


modelo 12.5.2). 


8 | ] | | l I I l J 
1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 
Año 


lo mismo que las u,!” con mucha frecuencia un examen visual de las ú da algunas claves sobre la 


posible presencia de autocorrelación en las u. En realidad, un examen visual de 2, o (û?) propor- 
ciona información útil no sólo sobre la autocorrelación, sino también sobre heteroscedasticidad 
(como vimos en el capítulo anterior), sobre el grado de adecuación del modelo o sobre el sesgo 
de especificación, lo cual veremos en el siguiente capítulo. Como afirma un autor: 


No se puede exagerar la importancia de producir y analizar gráficos [de residuos] como parte habitual 
del análisis estadístico. Además de proporcionar en ocasiones un resumen accesible para entender 
un problema complejo, permiten el examen simultáneo de los datos, considerados en su conjunto, 
mientras que a la vez ilustran con claridad el comportamiento de los casos individuales. !8 


Hay diversas formas de examinar los residuos. Podemos graficarlos simplemente respecto del 
tiempo, con una gráfica secuencial de tiempo, como en la figura 12.8, que muestra los residuos 
obtenidos de la regresión de salarios sobre la productividad en Estados Unidos (12.5.2). Los va- 
lores de estos residuos están en la tabla 12.5, junto con algunos otros datos. 

Por otro lado, podemos graficar los residuos estandarizados respecto del tiempo, los cuales 
también se muestran en la figura 12.8 y en la tabla 12.5. Los residuos estandarizados son tan sólo 
los residuos (ĉ,) divididos entre el error estándar de la regresión (V6?); es decir, son (11, /6). 
Observe que û, al igual que ô, están medidos en las unidades en las cuales se mide la variable 
regresada Y. Los valores de los residuos estandarizados serán números puros (desprovistos de 
unidades de medición) y, por consiguiente, son comparables con los residuos estandarizados 
de otras regresiones. Además, los residuos estandarizados, así como %,, tienen media igual a cero 
(¿por qué?) y varianza aproximadamente igual a la unidad.!” 


17 Aunque las perturbaciones u, sean homoscedásticas y no estén correlacionadas, sus estimadores, los 
residuos ût, son heteroscedásticos y autocorrelacionados. Al respecto, véase G.S. Maddala, Introduction 

to Econometrics, Macmillan, 2a. ed., Nueva York, 1992, pp. 480-481. No obstante, se puede mostrar que, 
conforme se incrementa el tamaño de la muestra de manera indefinida, los residuos tienden a converger a 
sus valores reales, las u;. Sobre este tema, consulte E. Malinvaud, Statistical Methods of Econometrics, 2a. ed., 
North-Holland Publishers, Ámsterdam, 1970, p. 88. 

18 Stanford Weisberg, Applied Linear Regression, John Wiley & Sons, Nueva York, 1980, p. 120. 

19 En realidad, son los llamados residuos de Studentized los que tienen varianza unitaria. Pero en la prác- 
tica, los residuos estandarizados suelen mostrar la misma condición y, por tanto, se puede confiar en ellos. 
Al respecto, véase Norman Draper y Harry Smith, Applied Regression Analysis, 3a. ed., John Wiley £ Sons, 
Nueva York, 1998, pp. 207-208. 
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TABLA 12.5 Residuos: Reales, estandarizados y rezagados 


Observación s1 RESEST S1(—1) Observación s1 RESEST S1(—1) 

1960 —0.036068 —1.639433 NA 1983 0.014416 0.655291 0.038719 
1961 —0.030780 —1.399078 —0.036068 1984 0.001774 0.080626 0.014416 
1962 —0.026724 —1.214729 —0.030780 1985 0.001620 0.073640 0.001774 
1963 —0.029160 —1.325472 —0.026724 1986 0.013471 0.612317 0.001620 
1964 —0.026246 —1.193017 —0.029160 1987 0.013725 0.623875 0.013471 
1965 —0.028348 —1.288551 —0.026246 1988 0.017232 0.783269 0.013725 
1966 —0.017504 —0.795647 —0.028348 1989 —0.004818 —0.219005 0.017232 
1967 —0.006419 —0.291762 —0.017504 1990 —0.006232 —0.283285 —0.004818 
1968 0.007094 0.322459 —0.006419 1991 —0.004118 —0.187161 —0.006232 
1969 0.018409 0.836791 0.007094 1992 —0.005078 —0.230822 —0.004118 
1970 0.024713 1.123311 0.018409 1993 —0.010686 —0.485739 —0.005078 
1971 0.016289 0.740413 0.024713 1994 —0.023553 —1.070573 —0.010686 
1972 0.025305 1.150208 0.016289 1995 —0.027874 —1.266997 —0.023553 
1973 0.025829 1.174049 0.025305 1996 —0.039805 —1.809304 —0.027874 
1974 0.023744 1.079278 0.025829 1997 —0.041164 —1.871079 —0.039805 
1975 0.011131 0.505948 0.023744 1998 —0.013576 —0.617112 —0.041164 
1976 0.018359 0.834515 0.011131 1999 —0.006674 —0.303364 —0.013576 
1977 0.020416 0.927990 0.018359 2000 0.010887 0.494846 —0.006674 
1978 0.030781 1.399135 0.020416 2001 0.007551 0.343250 0.010887 
1979 0.033023 1.501051 0.030781 2002 0.000453 0.020599 0.007551 
1980 0.031604 1.436543 0.033023 2003 —0.006673 —0.303298 0.000453 
1981 0.020801 0.945516 0.031604 2004 —0.015650 —0.711380 —0.006673 
1982 0.038719 1.759960 0.020801 2005 —0.020198 —0.918070 —0.015650 


Notas: S1 = residuos de la regresión de salarios-productividad (forma log). 
S1(—1) = residuos rezagados un periodo. 
RESEST = residuos estandarizados = residuos/error estándar de la estimación. 


En muestras grandes, (û,/ô) está distribuida en forma aproximadamente normal con media cero 
y varianza unitaria. Para este ejemplo, 6 = 2.6755. 

Al examinar la gráfica secuencial de tiempo de la figura 12.8, observamos que tanto ù, como 
ù, estandarizada presentan un patrón similar al de la figura 12.1d, lo que indica que tal vez las u, 
no sean aleatorias. 

Para ver esto en forma diferente, podemos graficar ù, respecto de ů;—1, es decir, el residuo en el 
tiempo £ frente a su valor en el tiempo (t — 1), una clase de prueba empírica del esquema AR(1). 
Si los residuos no son aleatorios, debemos obtener gráficas similares a las que aparecen en la 
figura 12.3. El gráfico de la regresión log de salarios-productividad se presenta en la figura 12.9; 
los datos básicos se proporcionan en la tabla 12.5. Como muestra esta figura, la mayoría de los 
residuos están agrupados en el segundo (noreste) y el cuarto (suroeste) cuadrantes, lo cual indica 
una correlación positiva fuerte en los residuos. 

Por naturaleza, el método gráfico que acabamos de exponer es en esencia subjetivo o cualita- 
tivo, aunque poderoso. Sin embargo, hay diversas pruebas cuantitativas útiles para complementar 
el enfoque puramente cualitativo. A continuación veremos algunas de estas pruebas. 


Il. Prueba de “las rachas” 

Al examinar la figura 12.8, destaca una característica peculiar: al principio se tienen varios resi- 
duos negativos, luego se presenta una serie de residuos positivos y al final se observan muchos 
residuos, nuevamente negativos. Si los residuos fuesen puramente aleatorios, ¿sería posible ob- 
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FIGURA 12.9 
Residuos actuales y resi- 
duos rezagados. 
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servar tal patrón? Por intuición, parece poco probable. Esta intuición se verifica con la llamada 

prueba de “las rachas”, conocida también como prueba de Geary, prueba no paramétrica.?% 
Para explicar esta prueba, se anotan simplemente los signos (+ o —) de los residuos obtenidos 

de la regresión salarios-productividad, que se presentan en la primera columna de la tabla 12.5. 


== oo | O 


(12.6.1) 


Por tanto, hay 8 residuos negativos, seguidos por 21 positivos, seguidos por 11 negativos, segui- 
dos por 3 positivos, seguidos por 3 negativos, para un total de 46 observaciones. 

Definimos ahora una racha como una sucesión ininterrumpida de un símbolo o atributo, como 
+ o —. Definimos además la longitud de una racha como el número de elementos que contiene. 
En la sucesión mostrada en (12.6.1), hay 5 rachas: una racha de 8 signos menos (es decir, de 
longitud 8), una racha de 21 signos más (es decir, de longitud 21), una racha de 11 signos menos 
(es decir, de longitud 11), una racha de 3 signos más (es decir, de longitud 3) y una racha de 
3 signos menos (es decir, de longitud 3). Para un mejor efecto visual, presentamos las rachas entre 
paréntesis. 

Al examinar el comportamiento de las rachas en una sucesión de observaciones estrictamen- 
te aleatoria, es posible derivar una prueba de aleatoriedad de las rachas. Nos planteamos la si- 
guiente pregunta: ¿son muchas o muy pocas las 5 rachas observadas en el ejemplo ilustrativo 
consistente en 46 observaciones en comparación con el número de rachas esperadas en una su- 
cesión de 46 observaciones estrictamente aleatoria? Si hay muchas rachas, significa que en el 


20 En las pruebas no paramétricas no se hacen supuestos sobre la distribución (de probabilidad) de 
dónde se obtuvieron las observaciones. Sobre la prueba de Geary, véase R.C. Geary, “Relative Efficiency of 
Count Sign Changes for Assessing Residual Autoregression in Least Squares Regression”, Biometrika, vol. 57, 
1970, pp. 123-127. 
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ejemplo los residuos cambian de signo frecuentemente, y se indica con esto una correlación 
serial negativa (compare esto con la figura 12.3b). En forma similar, si hay muy pocas rachas, 
pueden indicar autocorrelación positiva, como en la figura 12.3a). Entonces, a priori, la figura 
12.8 indicaría una correlación positiva en los residuos. 

Ahora, sea: 


N = número total de observaciones = N; + M2 
N¡ = número de símbolos + (es decir, residuos +) 
N = número de símbolos — (es decir, residuos —) 
R = número de rachas 
Entonces, según la hipótesis nula de que los resultados sucesivos (en este caso, residuos) son in- 


dependientes, y si suponemos que N; > 10 y M2 > 10, el número de rachas está (asintóticamente) 
normalmente distribuido con 


2 
Media: E(R) = 


(12.6.2) 
2N N2(2N1 N2 — N) 


CAN =D) 


Varianza: o= 


Nota: N = N; + N2. 
Si la hipótesis nula de aleatoriedad es sostenible, y según las propiedades de la distribución 
normal, debemos esperar que 


Prob [E(R) — 1.960% < R < E(R) + 1.9607] = 0.95 (12.6.3) 


Es decir, la probabilidad de que el intervalo anterior incluya a R es de 95%. Por tanto, tenemos 
la siguiente regla: 


Regla de decisión 


No rechace la hipótesis nula de aleatoriedad a 95% de confianza si R, el número de rachas, está 
en el intervalo de confianza anterior; rechace la hipótesis nula si la R estimada se encuentra fuera 
de estos límites. (Nota: Puede elegir cualquier nivel de confianza que desee.) 


Regresemos al ejemplo, donde sabemos que N;, el número de signos positivos, es 24, y M2, el nú- 
mero de signos negativos, es 22; además R = 5. Con las fórmulas dadas en (12.6.2), obtenemos: 


E(R) = 24 
es =11 (12.6.4) 
OR = 3.32 


El intervalo de confianza a 95% para R en el ejemplo es entonces: 


[24 + 1.96(3.32)] = (17.5, 30.5) 


Obvio, este intervalo no incluye 5. Por tanto, rechazamos la hipótesis de que los residuos en la 
regresión de los salarios sobre la productividad son aleatorios, con una confianza de 95%. En 
otras palabras, los residuos muestran autocorrelación. Como regla general, si hay autocorrelación 
positiva, el número de rachas será reducido, mientras que si existe autocorrelación negativa, el 
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número de rachas será grande. Por supuesto, de (12.6.2) sabemos si se tienen muchas o pocas 
rachas. 

Swed y Eisenhart elaboraron tablas especiales con valores críticos de las rachas esperadas 
en una sucesión aleatoria de N observaciones, si Nı o M2 son menores que 20. Estas tablas se 
incluyen en el apéndice D, tabla D.6. Con esas tablas, el lector puede verificar que los residuos 
en la regresión de salarios sobre productividad en realidad no son aleatorios; de hecho, están 
positivamente correlacionados. 


Ill. Prueba d de Durbin-Watson?! 


La prueba más conocida para detectar correlación serial es la de los estadísticos Durbin y Wat- 
son. Se le conoce como estadístico d de Durbin-Watson, que se define como 


tna a 2 
q = ar ti) (12.6.5) 
Dat 


que es simplemente la razón de la suma de las diferencias al cuadrado de residuos sucesivos sobre 
la SCR. Observe que, en el numerador del estadístico d, el número de observaciones es n — 1 
porque se pierde una observación al obtener las diferencias consecutivas. 

Una gran ventaja del estadístico d es que se basa en los residuos estimados, que se calculan de 
manera rutinaria en los análisis de regresión. Debido a esta ventaja, es frecuente incluir el estadis- 
tico d de Durbin-Watson en los informes de análisis de regresión, junto con otros estadísticos de 
resumen, como R?, R? ajustada, t y F. Aunque el estadístico d se utiliza ahora en forma rutinaria, 
es importante observar los supuestos en los cuales se basa: 


1. El modelo de regresión incluye el término del intercepto. Si dicho término no está presente, 
como en la regresión a través del origen, es esencial efectuar de nuevo la regresión con dicho 
término para obtener la SCR.? 


2. Las variables explicativas, X, son no estocásticas, es decir, son fijas en muestreo repetido. 


3. Las perturbaciones u, se generan mediante el esquema autorregresivo de primer orden: 
Ut = pu;_1 + £r. Por tanto, no se pueden utilizar para detectar esquemas autorregresivos de orden 
superior. 


4. Se supone que el término de error u, está normalmente distribuido. 


5. El modelo de regresión no incluye valor(es) rezagado(s) de la variable dependiente como 
una variable explicativa. Por tanto, la prueba es inaplicable a modelos del siguiente tipo: 


Y, = bi + 2X: + B3A3 ++ BrXr + Y Yi- + u (12.6.6) 


donde Y, ¡ es el valor de Y rezagada un periodo. Tales modelos se conocen como modelos 
autorregresivos, los cuales estudiaremos en el capítulo 17. 


6. No hay observaciones faltantes en los datos. Por tanto, en la regresión de salarios-produc- 
tividad de 1960 a 2005, si por alguna razón faltaran observaciones, por ejemplo, de 1978 y 1982, 
el estadístico d no permitiría la ausencia de tales observaciones. 


21]. Durbin y G.S. Watson, “Testing for Serial Correlation in Least-Squares Regression”, Biometrika, vol. 38, 
1951, pp. 159-171. 

22 Sin embargo, R.W. Farebrother calculó valores d cuando el término del intercepto está ausente del mo- 
delo. Véase su artículo “The Durbin-Watson Test for Serial Correlation When There Is No Intercept in the 
Regression”, Econometrica, vol. 48, 1980, pp. 1553-1563. 


23 Para mayores detalles, véase Gabor Korosi, Laszlo Matyas e Istvan P. Szekey, Practical Econometrics, Ave- 
bury Press, Inglaterra, 1992, pp. 88-89. 


FIGURA 12.10 
Estadístico d de Durbin- 
Watson. 
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Hp: No hay autocorrelación positiva 


Ho: No hay autocorrelación negativa 


El muestreo exacto o la distribución de probabilidad del estadístico d dado en (12.6.5) es di- 
ficil de derivar porque, como demostraron Durbin y Watson, tiene una dependencia compleja de 
los valores presentes de X en una muestra dada.?* Esta dificultad se entiende porque d se calculó 
a partir de los ù,, los cuales, por supuesto, dependen de las X dadas. Por consiguiente, a diferencia 
de las pruebas t, F o x?, no hay un valor crítico único que lleve al rechazo o a la aceptación de 
la hipótesis nula de que no hay correlación serial de primer orden en las perturbaciones u;. Sin 
embargo, Durbin y Watson lograron encontrar un límite inferior d, y un límite superior dy tales 
que si el valor d calculado de (12.6.5) cae por fuera de estos valores críticos, puede tomarse una 
decisión respecto de la presencia de correlación serial positiva o negativa. Además, estos límites 
sólo dependen del número de observaciones n y del número de variables explicativas, y no de los 
valores que adquieren estas variables explicativas. Durbin y Watson tabularon estos límites para 
n, de 6 a 200 y hasta 20 variables explicativas, y se presentan en el apéndice D, tabla D.5 (hasta 
20 variables explicativas). 

El procedimiento de prueba aplicado se explica mejor con ayuda de la figura 12.10, la cual 
muestra que los límites de d son 0 y 4. Éstos se determinan al expandir (12.6.5) para obtener 


RS, 2 
= y 


Como » 2? y Y ù? difieren sólo en una observación, son aproximadamente iguales. Por consi- 
guiente, establecemos que ) 2? , ~ Y û? y (12.6.7) se escribe como 


de ( — Zir) (12.6.8) 


donde = significa aproximadamente igual. 
Ahora definimos 


d 


(12.6.7) 


(12.6.9) 


24 Sin embargo, consulte el análisis sobre la prueba Durbin-Watson “exacta” más adelante en la sección. 
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TABLA 12.6 
Prueba d de Durbin- 
Watson: reglas de 
decisión 


como el coeficiente de autocorrelación muestral de primer orden, un estimador de p. (Véase la 
nota 9.) Con (12.6.9) expresamos (12.6.8) como 


d=2Al1- ô) (12.6.10) 


Pero, como —1 < p< 1 (12.6.10), implica que 
O<d<4 (12.6.11) 


Estos son los límites de d; todo valor d estimado debe caer dentro de estos límites. 

Es evidente de la ecuación (12.6.10) que si ô = 0, d = 2; es decir, si no hay correlación serial 
(de primer orden), esperamos que d esté alrededor de 2. Por consiguiente, como regla práctica, 
si en una aplicación vemos que d es igual a 2, podemos suponer que no hay autocorrelación 
de primer orden, positiva o negativa. Si p = +1, indica una correlación positiva perfecta en 
los residuos, d ~ 0. Por consiguiente, entre más cercano esté d a 0, mayor será la evidencia de 
correlación serial positiva. Esta relación debe ser evidente de (12.6.5) porque, si hay autocorre- 
lación positiva, las 4, aparecerán agrupadas, y sus diferencias, por consiguiente, tenderán a ser 
pequeñas. Como resultado, la suma de cuadrados del numerador será menor en comparación con 
la suma de cuadrados del denominador, el cual es un valor que permanece fijo para cualquier 
regresión dada. 

Si ô = —1 es decir, hay una correlación negativa perfecta entre los valores consecutivos de 
los residuos, d 4. Por tanto, entre más se acerque d a 4, mayor será la evidencia de correla- 
ción serial negativa. De nuevo, al analizar (12.6.5), esto es comprensible: si hay autocorrelación 
negativa, una ú, positiva tenderá a estar seguida por una ù; negativa y viceversa, de forma que 
lû, — ú,-1| será usualmente mayor que |%,|. Por consiguiente, el numerador de d será comparati- 
vamente mayor que el denominador. 

El mecanismo de la prueba de Durbin-Watson es el siguiente, si suponemos que se cumplen 
los supuestos de la prueba: 


1. Efectuar la regresión por MCO y obtener los residuos. 


2. Calcular d a partir de (12.6.5). (La mayoría de los programas de computadora incluye este 
cálculo.) 


3. Para un tamaño de muestra dado y un número de variables explicativas dado, determinar los 
valores críticos dz y dy. 


4. Ahora se siguen las reglas de decisión de la tabla 12.6. Para facilitar su comprensión, estas 
reglas se resumen en la figura 12.10. 


Para ilustrar el mecanismo, retome la regresión salarios-productividad. De los datos en la tabla 
12.5 vemos que el valor estimado de d es 0.2175, lo que indica una correlación serial positiva en 
los residuos. A partir de las tablas de Durbin-Watson, encontramos que, para 46 observaciones y 
una variable explicativa, d; = 1.475 y dy = 1.566 en el nivel de 5%. Como el valor d calculado 
de 0.2175 está por debajo de dz, no podemos rechazar la hipótesis de que hay correlación serial 
positiva en los residuos. 

A pesar de ser muy popular, la prueba d tiene una gran desventaja: cuando cae en la zona de 
indecisión, no se puede concluir si hay o no autocorrelación (de primer orden). Para resolver 


Hipótesis nula Decisión Si 

No hay autocorrelación positiva Rechazar 0<d<d, 

No hay autocorrelación positiva Sin decisión dı < d< dy 

No hay correlación negativa Rechazar 4-d<d<4 

No hay correlación negativa Sin decisión 4-du<d<4-— d, 


No hay autocorrelación, positiva o negativa No rechazar dy <d<4-= dy 
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este problema, diversos autores proponen modificaciones a la prueba d, las cuales escapan al 
alcance de este libro. En muchas situaciones, sin embargo, se observa que el límite superior dy 
es aproximadamente el verdadero límite de significancia, y, por consiguiente, en el caso de que 
el valor d estimado se encuentre en la zona de indecisión, se puede utilizar el siguiente procedi- 
miento de prueba d modificada. Con el nivel de significancia oz, 


1. Ho:p =0 frente a Hı:p > 0. Si el valor estimado d < dy, rechace Hp en el nivel œ. Es decir, 
hay correlación positiva estadísticamente significativa. 


2. Ho:p = 0 frente a H;:p < 0. Si el valor estimado (4 — d) < dy, rechace Họ en el nivel a; es 
decir, hay evidencia estadísticamente significativa de autocorrelación negativa. 


3. Ho:p = 0 frente a H¡:p Æ 0. Rechace Ho en el nivel 2a si d < dy o (4 — d) < di, es decir, hay 
evidencia estadísticamente significativa de autocorrelación, positiva o negativa. 


Se debe señalar que la zona de indecisión se estrecha conforme aumenta el tamaño de la mues- 
tra, lo cual se observa claramente en las tablas Durbin-Watson. Por ejemplo, con 4 regresoras y 
20 observaciones, los valores d inferiores y superiores a 5% son 0.894 y 1.828, respectivamente; 
pero esos valores son 1.515 y 1.739, cuando el tamaño de la muestra es de 75. 

El software SHAZAM calcula una prueba d exacta; es decir, da el valor p, la probabilidad 
exacta del valor d calculado. Con las computadoras modernas, ya no es difícil determinar el 
valor p del estadístico d calculado. Con SHAZAM (versión 9) para la regresión de salarios sobre 
productividad, tenemos que el valor p del d calculado es 0.2176, prácticamente cero, por lo que 
confirmamos la conclusión anterior basada en las tablas Durbin-Watson. 

La prueba d de Durbin-Watson es ya tan clásica que los profesionales suelen olvidar los 
supuestos en los que se basa; en particular: 1) las variables explicativas, o regresoras, son no 
estocásticas, 2) el término de error sigue la distribución normal, 3) los modelos de regresión 
no incluyen el (los) valor(es) rezagado(s) de la regresada y 4) sólo se toma en cuenta la correla- 
ción serial de primer orden. Todos estos supuestos son muy importantes en la aplicación de la 
prueba d. Debe añadirse que un estadístico d significativo no necesariamente indica autocorrela- 
ción. Más bien, puede indicar una omisión de las variables pertinentes en el modelo. 

Si un modelo de regresión contiene valor(es) rezagado(s) de la regresada, el valor d a me- 
nudo se aproxima a 2, lo cual indicaría que no hay autocorrelación (de primer orden) en dichos 
modelos. Por tanto, hay un sesgo implícito que impide descubrir la autocorrelación (de primer 
orden) en tales modelos. Esto no quiere decir que los modelos autorregresivos estén exentos de 
problemas de autocorrelación. De hecho, Durbin elaboró la llamada prueba h para probar en 
tales modelos la correlación serial; sin embargo, no es tan poderosa, en sentido estadístico, como 
la prueba Breusch-Godfrey, que en breve analizaremos, así que no hay necesidad de la prueba 
h. Sin embargo, por su importancia histórica, la abordaremos en el ejercicio 12.36. 

Asimismo, si los términos de error u, no son NIID, tal vez no sea confiable la prueba d ruti- 
naria.” Al respecto, la prueba de las rachas tiene la ventaja de que no hace ningún supuesto 
en cuanto a la distribución (de probabilidad) respecto del término de error. Sin embargo, si 
la muestra es grande (técnicamente infinita) se puede utilizar el d de Durbin-Watson, pues se 
demuestra que:?” 


Jn ( = 34) = N(0, 1) (12.6.12) 


25 Para mayores detalles, véase Thomas B. Fomby, R. Carter Hill y Stanley R. Johnson, Advanced Econometric 
Methods, Springer-Verlag, Nueva York, 1984, pp. 225-228. 


26 Para un análisis avanzado, véase Ron C. Mittelhammer, George G. Judge y Douglas J. Millar, Econometric 
Foundations, Cambridge University Press, Nueva York, 2000, p. 550. 


27 Véase James Davidson, Econometric Theory, Blackwell, Nueva York, 2000, p. 161. 
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Es decir, en muestras grandes, el estadístico d, como está transformado en (12.6.12), sigue la 
distribución normal estandarizada. A propósito, en vista de la relación entre d y ô, el coeficiente 
estimado de autocorrelación de primer orden, mostrado en (12.6.10), se deduce que 


np ~ N(0, 1) (12.6.13) 


es decir, en muestras grandes, la raíz cuadrada del tamaño de la muestra multiplicada por el coefi- 

ciente de autocorrelación de primer orden también sigue la distribución normal estandarizada. 
Como una ilustración de esta prueba, para el ejemplo de la regresión de los salarios sobre la 

productividad descubrimos que d = 0.2176, con n = 46. Por tanto, de (12.6.12) tenemos que 


0.2176 
v46 (: — 55) = 6.0447 


Asintóticamente, si fuese verdadera la hipótesis nula de que no existe autocorrelación (de primer 
orden), la probabilidad de obtener un valor Z (es decir, la variable normal estandarizada) igual a 
6.0447 o mayor sería extremadamente pequeña. Recuerde que para una distribución normal es- 
tandarizada, el valor crítico Z a 5% (de dos colas) tan sólo es de 1.96, y el valor crítico Za 1% 
es de casi 2.58. Aunque el tamaño de la muestra es únicamente de 46, para propósitos prácti- 
cos puede ser lo bastante grande para utilizar la aproximación normal. La conclusión es aún la 
misma, a saber, que los residuos de la regresión de los salarios sobre la productividad presentan 
autocorrelación. 

Pero el problema más grave con la prueba d es el supuesto de que las regresoras son no es- 
tocásticas; es decir, sus valores son fijos en muestras repetidas. De no ser así, la prueba d no 
es válida para muestras finitas, o pequeñas, ni para muestras grandes.?% Y en vista de que este 
supuesto a menudo resulta difícil de sostener en los modelos económicos con datos de series de 
tiempo, un autor afirma que el estadístico Durbin-Watson tal vez no sea útil en la econometría 
con series de tiempo.?” Su opinión es que hay pruebas más útiles para la autocorrelación, pero 
se basan en muestras grandes. Analizaremos a continuación una de estas pruebas, la prueba de 
Breusch-Godfrey. 


IV. Una prueba general de autocorrelación: 
la prueba de Breusch-Godfrey (BF)* 


Para evitar algunos inconvenientes de la prueba d de Durbin-Watson de autocorrelación, los esta- 
dísticos Breusch y Godfrey elaboraron una prueba para la autocorrelación que es general porque 
permite: 1) regresoras no estocásticas, como los valores rezagados de la regresada; 2) esquemas 
autorregresivos de orden mayor, como el AR(1), AR(2), etc.; y 3) promedios móviles simples o 
de orden superior de los términos de error de ruido blanco, como e, en (12.2. 1).3 1 

Sin abordar los detalles matemáticos, los cuales puede consultar en la bibliografia, la prueba 
BG, que también se conoce como prueba ML,*? procede de la siguiente manera: utilizamos el 


28 Ibid., p. 161. 

29 Fumio Hayashi, Econometrics, Princeton University Press, Princeton, Nueva Jersey, 2000, p. 45. 

30 Véase L.G. Godfrey, “Testing Against General Autoregressive and Moving Average Error Models When the 
Regressor include Lagged Dependent Variable”, Econometrica, vol. 46, 1978, pp. 1293-1302, y T.S. Breusch, 


“Testing for Autocorrelation in Dynamic Linear Models”, Australian Economic Papers, vol. 17, 1978, pp. 334- 
355. 

31 Por ejemplo, en la regresión Y; = 61 + 62X + ur el término de error puede expresarse por medio de 

Ut = Er + À1Et-1 + A2€1-2, que representa un promedio móvil de tres periodos del término de error de ruido 
blanco et. 

32 La prueba se basa en el principio multiplicador de Lagrange, mencionado brevemente en el 
capítulo 8. 
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modelo de regresión de dos variables para ilustrar la prueba, aunque se pueden añadir al modelo 
muchas regresoras. Asimismo, se pueden incluir en él valores rezagados de la regresada. Sea 


Y, = B1 + P2X, +u (1 2.6.14) 


Suponga que el término de error u, sigue el esquema autorregresivo de orden p, AR(p), del si- 
guiente modo: 


Ut = p1Ut—1 + P2U12 + +++ + PpUt-p + £t (12.6.15) 


donde e, es un término de error de ruido blanco, como ya examinamos. Lo anterior es una simple 
extensión del esquema AR(1), como el lector ya habrá reconocido. 
La hipótesis nula Ho por demostrar es 


H: pi =P.=:::=Pp=0 (12.6.16) 


Es decir, no existe correlación serial de ningún orden. La prueba BG implica los siguientes 
pasos: 


1. Estime (12.6.14) mediante MCO y obtenga los residuos %,. 


2. Haga la regresión ù, sobre la X, original (si hay más de una variable X en el modelo original, 
inclúyalas también) y %1,_1, 4,2, . - - , U,- p, donde estas últimas son los valores rezagados de los 
residuos estimados en el paso 1. Por tanto, si p = 4, introduciremos en el modelo cuatro valores 
rezagados de los residuos como regresoras adicionales. Observe que para hacer esta regresión 
sólo hay (n — p) observaciones (¿por qué?). En resumen, realice la siguiente regresión: 


û, =01 +09X,+ P18;1 + Pr: + c+ Ôpûi—p +E (12.6.17) 


y obtenga R? de esta regresión (auxiliar).* 


3. Si el tamaño de la muestra es grande, Breusch y Godfrey demostraron que 
(n= p)R? ~ x; (12.6.18) 


Es decir, asintóticamente, n — p veces el valor de R? obtenido en la regresión auxiliar (12.6.17) 
sigue la distribución ji cuadrada con p gl. Si en una aplicación (n — p)R? excede el valor crítico 
ji cuadrada en el nivel de significancia seleccionado, podemos rechazar la hipótesis nula, en cuyo 
caso, por lo menos una p en (12.6.15) es significativamente diferente de cero. 


Pueden mencionarse los siguientes puntos prácticos sobre la prueba BG: 


1. Las regresoras incluidas en el modelo de regresión pueden contener valores rezagados de 
la variable regresada Y; es decir, Y,_¡, Y, 2, etc., pueden aparecer como variables explicativas. 
Contraste este modelo con la restricción de la prueba de Durbin-Watson, que no permite valores 
rezagados de la variable regresada entre las variables explicativas. 


2. Como ya señalamos, la prueba BG es aplicable aunque las perturbaciones sigan un proceso 
de promedios móviles (PM) de orden p, es decir, aunque las u; se generen como sigue: 


Uy = Et + hEr1 + dE 2 +-+ F hpErp (12.6.19) 


donde e, es un término de error de ruido blanco; es decir, el término de error que satisface todos 
los supuestos clásicos. 


33 La razón para incluir la regresora original X en el modelo es permitir que X no sea estrictamente no esto- 
cástica. Pero si es estrictamente no estocástica, quizá se omita del modelo. Sobre este tema, consulte Jeffrey 
M. Wooldridge, Introductory Econometrics: A Modern Approach, South-Western Publishing Co., 2003, p. 386. 
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En los capítulos sobre la econometría de series de tiempo estudiaremos con cierto detalle los 
procesos de promedio móvil y los autorregresivos de orden p. 


3. Sip = 1 en (12.6.15), que significa autorregresión de primer orden, la prueba BG se 
conoce como prueba m de Durbin. 


4. Una desventaja de la prueba BG es que el valor de p, la longitud del rezago, no puede 
especificarse a priori. Es inevitable algún grado de experimentación con el valor de p. A veces 
se pueden utilizar los llamados criterios de información Akaike y Schwarz para seleccionar la 
longitud del rezago. Estudiaremos estos criterios en el capítulo 13 y más adelante, en los capítu- 
los sobre econometría de series de tiempo. 


5. Con los valores de las variables X y los valores rezagados de u, la prueba supone que la 
varianza de u en la ecuación (12.6.15) es homoscedástica. 


Ilustración de la 
prueba BG: Rela- 
ción entre salarios 
y productividad 


Para mostrar la prueba, la aplicaremos a este ejemplo ilustrativo. Con un esquema AR(6) obtu- 
vimos los resultados del ejercicio 12.25. De los resultados de la regresión dados ahí, se observa 
que (n — p) = 40 y R? = 0.7498. Por tanto, al multiplicar estos dos valores se obtiene un valor 
ji cuadrada de 29.992. Para 6 gl (¿por qué?), la probabilidad de obtener un valor ji cuadrada 
igual o mayor que 29.992 es demasiado pequeña; la tabla ji cuadrada del apéndice D.4 muestra 
que la probabilidad de obtener un valor ji cuadrada de 18.5476 o mayor es de sólo 0.005. Por 
tanto, para los mismos gl, la probabilidad de obtener un valor ji cuadrada de casi 30 debe ser 
demasiado pequeña. De hecho, el valor p real es casi cero. 

En consecuencia, la conclusión es que, para este ejemplo, al menos una de las seis autocorre- 
laciones debe ser distinta de cero. 

Al tratar de variar las longitudes del rezago de 1 a 6, encontramos que sólo el coeficiente 
AR(1) es significativo, lo cual sugiere que no hay necesidad de considerar más que un rezago. En 
esencia, la prueba BG, en este caso, resulta ser la prueba m de Durbin. 


¿Por qué tantas pruebas para la autocorrelación? 


La respuesta es que “. . . no se ha juzgado de manera inequívoca a ninguna prueba en particular 
como la mejor [es decir, la más poderosa en el sentido estadístico], y por tanto el analista todavía 
está en la nada envidiable posición de considerar una variada colección de procedimientos de 
prueba para detectar la presencia, la estructura, o ambas, de la autocorrelación”.** Por supuesto, 
un argumento similar vale respecto de las diversas pruebas de heteroscedasticidad analizadas en 
el capítulo anterior. 


12.7 Qué hacer cuando hay autocorrelación: 


medidas correctivas 


Si después de aplicar una o más pruebas de diagnóstico para la autocorrelación de las analizadas 
en la sección previa encontramos autocorrelación, ¿qué hacer? Hay cuatro opciones: 


1. Trate de averiguar si se trata de autocorrelación pura y no el resultado de una mala espe- 
cificación del modelo. Como analizamos en la sección 12.1, a veces se observan patrones en los 
residuos porque el modelo está mal especificado —es decir, se excluyeron variables importan- 
tes— o porque su forma funcional no es correcta. 


34 Ron C. Mittelhammer et al., op. cit., p. 547. Recuerde que la potencia de una prueba estadística 

es 1 menos la probabilidad de cometer un error de tipo Il; es decir, 1 menos la probabilidad de aceptar una 
hipótesis falsa. La potencia máxima de una prueba es 1, y la mínima es O. Mientras más cerca de cero esté 
la potencia de una prueba, peor será ésta, y mientras más cerca esté de 1, más poderosa será. Lo que estos 
autores afirman en esencia es que no existe una prueba de autocorrelación que sea la más poderosa. 
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2. Si se trata de autocorrelación pura, se puede utilizar una transformación apropiada del 
modelo original de manera que en el modelo transformado no se presente el problema de la 
autocorrelación (pura). Como en la heteroscedasticidad, habrá que emplear algún método gene- 
ralizado de mínimos cuadrados (MCG). 

3. En muestras grandes se puede utilizar el método Newey-West para obtener los errores 
estándar de los estimadores de MCO corregidos para autocorrelación. Este método en realidad es 
una extensión del método de errores estándar consistentes con heteroscedasticidad de White, que 
analizamos en el capítulo anterior. 


4. En algunas situaciones se puede conservar el método MCO. 


Debido a la importancia de cada uno de estos temas, les dedicamos una sección. 


12.8 Especificación incorrecta del modelo frente a 
autocorrelación pura 


Consideremos de nuevo la regresión de salarios sobre productividad dada en (12.5.2). Vimos que 
el valor d era igual a 0.2176, y con base en la prueba d de Durbin-Watson concluimos que existía 
una correlación positiva en el término de error. ¿Pudo surgir dicha correlación porque el modelo 
no estaba correctamente especificado? Como los datos subyacentes a la regresión (12.5.1) son del 
tipo serie de tiempo, es muy probable que los salarios y la productividad muestren tendencias. De 
ser así, se requiere incluir la variable de tiempo o tendencia, t, en el modelo, a fin de observar la 
relación entre los salarios y la productividad descontando la tendencia de las dos variables. 

Para probar lo anterior, incluimos la variable tendencia en (12.5.2) y obtuvimos los siguientes 
resultados: 


Y,= 0.1209 + 1.00283X,—  0.0075£ 
ee = (0.3070) (0.0776) (0.0015) 


t= (0.3939) (13.2594)  (-4.8903) 
R? = 0.9900; d= 0.4497 


(12.8.1) 


La interpretación de este modelo es sencilla: con el tiempo, el índice de los salarios reales dis- 
minuyó casi 0.75 unidades al año. Después de tener esto en cuenta, si el índice de productividad 
aumentara una unidad, en promedio, el salario real se incrementaría casi una unidad. Resulta 
interesante notar que incluso teniendo en cuenta la variable de tendencia, el valor d sigue siendo 
muy bajo, lo cual indica que (12.8.1) presenta autocorrelación pura y no necesariamente hay un 
error de especificación. 

¿Cómo sabemos que (12.8.1) es la especificación correcta? Para averiguarlo, hacemos la re- 
gresión de Y sobre X y X? para probar la posibilidad de que el índice de salarios reales esté 
relacionado de forma no lineal con el indice de productividad. Los resultados de esta regresión 
son los siguientes: 


Y, =— 1.7843 + 2.1963X,— 0.1752X2 


t= (—2.7713) (7.5040) (—5.2785) (12.8.2) 
R? = 0.9906 d= 0.3561 


Corresponde al lector interpretar estos resultados. Para los propósitos presentes, examine el valor 
Durbin-Watson, aún muy bajo, lo que indica que todavía hay correlación serial positiva en los 
residuos. 

Se puede concluir con toda seguridad, a partir del análisis anterior, que la regresión de los 
salarios sobre la productividad presenta autocorrelación pura, y no necesariamente un sesgo de 
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especificación. Al conocer las consecuencias de la autocorrelación, quizá desearíamos empren- 
der algunas acciones correctivas, lo cual haremos en breve. 

A propósito, en todas las regresiones de salarios sobre productividad que se han presentado, 
se aplicó la prueba de normalidad de Jarque-Bera y se encontró que los residuos estaban 
normalmente distribuidos, lo cual resulta reconfortante porque la prueba d supone la normalidad 
para el término de error. 


12.9 Corrección de la autocorrelación (pura): 


el método de los mínimos cuadrados generalizados (MCG) 


Como conocemos las consecuencias de la autocorrelación, sobre todo la falta de eficiencia de 
los estimadores de MCO, quizá deseemos corregir el problema. El remedio depende del conoci- 
miento respecto a la naturaleza de la interdependencia entre las perturbaciones; es decir, conocer 
la estructura de la autocorrelación. 

Para empezar, considere el modelo de regresión de dos variables: 


Y, = pı + P2X, + u: (12.9.1) 
y suponga que el término de error sigue el esquema AR(1), a saber: 
Us = puri +& =1<p<l (12.9.2) 


Ahora consideremos dos casos: 1) se conoce p y 2) no se conoce p, pero tiene que estimarse. 


Cuando se conoce p 

Si se conoce el coeficiente de autocorrelación de primer orden, el problema de la autocorrelación 
se resuelve muy fácil. Si (12.9.1) es válida en el tiempo ź, también lo es para el tiempo (t — 1). 
Por tanto, 


Y, = pi + B2X,-1 + 411 (12.9.3) 
Al multiplicar (12.9.3) por p en ambos miembros, obtenemos 
PY,-1 = pı + PB2X;-1 + pur- (12.9.4) 
Si restamos (12.9.4) de (12.9.1), resulta 
(Y, — p¥Yi-1) = BIC — p) + B(X: — pPXt-1) + €s (12.9.5) 


donde e, = (u; — pu;_1). 
Expresamos (12.9.5) como 


Yi = Bi + PiX} + €, (12.9.6) 


donde Bj = Br(1 — p), Y? = (Yı — pY;-1), X} = (X: — pX,-1) y B3 = Bo. 

Como el término de error en (12.9.6) satisface los supuestos usuales de MCO, los aplicamos a 
las variables transformadas Y* y X* para obtener estimadores con todas las propiedades óptimas; 
a saber, que sean MELI. En efecto, llevar a cabo la regresión (12.9.6) equivale a utilizar los mí- 
nimos cuadrados generalizados (MCG) del capítulo anterior (recuerde que los MCG no son más 
que los MCO aplicados al modelo transformado que satisface los supuestos clásicos). 

La regresión (12.9.5) se conoce como generalizada, cuasi generalizada o ecuación en di- 
ferencias. Implica la regresión de Y sobre X, pero no en la forma original, sino en la forma de 
diferencias, que se obtiene al restar una proporción (= p) del valor de una variable en el periodo 
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anterior, de su valor en el periodo actual. En este proceso de diferenciación se pierde una ob- 
servación, debido a que la primera observación no tiene antecedentes. Para evitar dicha pérdida, 
la primera observación se transforma de la siguiente manera: **% Y, /1 — p? y Xi y1 — p?. Esta 
transformación se conoce como transformación Prais-Winsten. 


Cuando no se conoce p 


Aunque es sencillo aplicar la regresión en diferencias generalizada dada en (12.9.5), por lo ge- 
neral es difícil efectuarla en la práctica porque pocas veces se conoce p. Por consiguiente, se 
requieren formas de calcular p. Hay varias posibilidades. 


Método de primeras diferencias 


Como p se encuentra entre 0 y +1, se puede partir de dos posiciones extremas. En un extremo, 
se puede suponer que p = 0, es decir, no hay correlación serial (de primer orden) y en el otro 
extremo, se puede considerar que p = +1, es decir, autocorrelación positiva o negativa perfecta. 
En realidad, cuando se efectúa una regresión, suele suponerse que no hay autocorrelación y luego 
se deja que la prueba de Durbin-Watson u otras pruebas demuestren si el supuesto es justificado. 
Sin embargo, si p = +1, la ecuación en diferencias generalizada (12.9.5) se reduce a la ecuación 
en primeras diferencias, pues 


Y, — Y, = B(X: = X;-1) + (u, = 4-1) 
o bien 
AY, = BLAX, + Et (1 2.9.7) 


donde A es el operador de primeras diferencias introducido en (12.1.10). 

Como el término de error en (12.9.7) está libre de la correlación serial (de primer orden) (¿por 
qué?), todo lo que hay que hacer para llevar a cabo la regresión (12.9.7) es formar las primeras 
diferencias de la regresada y la(s) regresora(s), y realizar la regresión sobre esas primeras dife- 
rencias. 

La transformación de primeras diferencias puede resultar adecuada si el coeficiente de auto- 
correlación es muy alto, por ejemplo, superior a 0.8; o si el d de Durbin-Watson es muy bajo. 
Maddala propuso esta rudimentaria regla práctica: utilice la forma de primeras diferencias siem- 
pre que d < R?.36 Esto es lo que sucede en la regresión de los salarios sobre la productividad 
(12.5.1), en donde se tiene que d = 0.2176 y r? = 0.9845. En breve presentaremos la regresión 
de primeras diferencias para el ejemplo ilustrativo. 

Una característica importante del modelo de primeras diferencias (12.9.7) es que carece de 
intercepto. Por tanto, para estimar (12.9.7) se tiene que emplear la rutina de la regresión a tra- 
vés del origen (es decir, suprimir el término del intercepto), la cual ahora está disponible en la 
mayoría de los software. Sin embargo, si olvida eliminar el término del intercepto en el modelo 
y estima el siguiente modelo que incluye dicho término 


AY, = bi + BAX, + 8, (12.9.8) 


35 La pérdida de una observación quizá no sea algo preocupante en muestras grandes, pero puede significar 
una diferencia fundamental en los resultados de muestras pequeñas. Si no se transforma la primera obser- 
vación como se indica, la varianza de error no será homoscedástica. Para saber más sobre lo anterior, véase 
Jeffrey Wooldridge, op. cit., p. 388. Para conocer algunos resultados Monte Carlo sobre la importancia de la 
primera observación, véase Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, 
Oxford University Press, Nueva York, 1993, tabla 10.1, p. 349. 


36 Maddala, op. cit., p. 232. 
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entonces el modelo original debe tener una tendencia y $, representa el coeficiente de la variable 
de tendencia.*” En consecuencia, un beneficio “accidental” de introducir el término del intercepto 
en el modelo de primeras diferencias es probar la presencia de una variable de tendencia en el 
modelo original. 

En cuanto a la regresión de salarios sobre productividad (12.5.2), con el esquema AR(1) y un 
valor d bajo en relación con r?, volvemos a hacer la regresión (12.5.2) en la forma de primeras 
diferencias, sin el término de intercepto; recuerde que (12.5.2) está en forma de nivel. Los resul- 
tados son los siguientes:?* 


— 


AY, 0.6539AX, 
t = (11.4042) r? = 0.4264 d = 1.7442 


En comparación con la regresión de forma de nivel (12.5.2), observamos que el coeficiente 
de pendiente no cambió mucho, pero el valor r? disminuyó de manera considerable. Esto su- 
cede porque al tomar las primeras diferencias se estudia en esencia el comportamiento de varia- 
bles alrededor de sus valores de tendencia (lineal). Por supuesto, no podemos comparar la r? en 
forma directa de (12.9.9) con la de (12.5.2) porque las variables dependientes en los dos modelos 
son distintas.’ Asimismo, observe que, en comparación con la regresión original, el valor d 
aumentó de manera drástica, con lo que quizá se señale que hay muy poca autocorrelación en la 
regresión de primeras diferencias.* 

Otro aspecto interesante de la transformación de primeras diferencias se relaciona con las 
propiedades estacionarias de las series de tiempo subyacentes. Considere de nuevo la ecuación 
(12.2.1), que describe el esquema AR(1). Ahora bien, si de hecho p = 1, resulta claro de las ecua- 
ciones (12.2.3) y (12.2.4) que la serie u, es no estacionaria, pues las varianzas y covarlanzas se 
vuelven infinitas. Es por esta razón que, cuando estudiamos este tema, pusimos la restricción de 
que |o| < 1. Pero es evidente, a partir de (12.2.1), que si el coeficiente de autocorrelación es 
de hecho 1, entonces (12.2.1) se convierte en 


(12.9.9) 


Ut = Ut—1 + E 


(u, — ut—1) = Au, = €, (12.9.10) 


Es decir, es u; en su forma de primeras diferencias la que se vuelve estacionaria, porque es igual 
a £, un término de error de ruido blanco. 

Lo que se debe destacar del análisis anterior es que si las series de tiempo originales son 
no estacionarias, a menudo sus primeras diferencias se convierten en estacionarias. Por consi- 
guiente, la transformación de primeras diferencias tiene un doble propósito: puede eliminar la 
autocorrelación (de primer orden) y también causar que una serie de tiempo sea estacionaria. En 
la parte 5 analizaremos ese tema, y también la econometría del análisis de series de tiempo, con 
cierto detalle. 

Ya mencionamos que la transformación de primeras diferencias resulta adecuada si p es alta o 
si d es baja. En estricto sentido, la trasformación de primeras diferencias es válida sólo si p= 1. 


37 Es fácil demostrarlo. Sea Y, = 041 + Bit + B2X; + ur. Por tanto, Y 1 = œ + Bi(t— 1) + 82X1 + Upa. Al res- 
tar la última de la primera, obtendrá: AY; = B1 + 24X + £s lo cual muestra que el término del intercepto 

en la ecuación es en realidad el coeficiente de la variable de tendencia en el modelo original. Recuerde que 
suponemos que p= 1. 

38 En el ejercicio 12.38 se le pide hacer la regresión de este modelo, incluyendo su término constante. 


39 La comparación de r? en la forma de nivel y de primeras diferencias es un poco complicada. Para un aná- 
lisis amplio de lo anterior, véase Maddala, op. cit., capítulo 6. 


40 No resulta claro si el valor d calculado en la regresión de primeras diferencias se puede interpretar del 
mismo modo que el original (la regresión en su forma de nivel). Sin embargo, al aplicar la prueba de las 
rachas, se observa si no hay evidencia de autocorrelación en los residuos de la regresión de primeras 
diferencias. 
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De hecho, existe una prueba, llamada prueba de Berenblutt-Webb,*! para probar la hipótesis de 
que p = 1. El estadístico de prueba se llama estadístico g, y se define como sigue: 


y) 


g= 2% (12.9.11) 


¡ u 


donde ù, son los residuos de MCO de la regresión original (es decir, en su forma de nivel) y e, son 
los residuos de MCO de la regresión de primeras diferencias. Tenga en cuenta que en la forma de 
primeras diferencias no hay intercepto. 

Para probar la significancia del estadístico g, suponiendo que la regresión de la forma de nivel 
contiene el término de intercepto, se utilizan las tablas Durbin-Watson, salvo que la hipótesis 
nula ahora es que p = 1 en vez de la hipótesis de Durbin-Watson de que p = 0. 

Retome la regresión de los salarios sobre la productividad, y para la regresión original (12.5.2) 
obtenemos » ù? = 0.0214 y Y ê = 0.0046. Al sustituir estos valores en el estadístico g dado en 
(12.9.11), obtenemos 


0.0046 
0.0214 


g = 0.2149 (12.9.12) 


Al consultar la tabla de Durbin-Watson para 45 observaciones (el número más cercano a 45 ob- 
servaciones) y 1 variable explicativa (apéndice D, tabla D.5), vemos que dz = 1.288 y dy = 1.376 
(en el nivel de significancia de 5%). Como el valor g observado se encuentra por debajo del li- 
mite inferior de d, no rechazamos la hipótesis que el verdadero p = 1. Tenga presente que, aun- 
que se utilizan las mismas tablas de Durbin- Watson, ahora la hipótesis nula es que p = 1 y no que 
p = 0. En vista de este hallazgo, los resultados dados en (12.9.9) pueden ser aceptables. 


p basada en el estadístico d de Durbin-Watson 
Si no podemos utilizar la transformación de primeras diferencias porque p no está lo bastante 
cerca de la unidad, hay un método fácil para estimarla a partir de la relación establecida con an- 
terioridad entre d y p en (12.6.10), de la cual p se estima de la siguiente forma: 

pro (12.9.13) 
Por tanto, en muestras razonablemente grandes, se puede obtener p de (12.9.13) y emplearla para 
transformar los datos, como vimos en la ecuación en diferencias generalizadas (12.9.5). Tenga 
presente que la relación entre p y d dada en (12.9.13) quizá no sea válida para muestras pequeñas; 
por eso, Theil y Nagar propusieron una modificación, que se presenta en el ejercicio 12.6. 

En la regresión de los salarios sobre la productividad (12.5.2) obtuvimos un valor d igual a 
0.2176; con dicho valor en (12.9.13) obtuvimos ô ~ 0.8912. Mediante este valor estimado de p 
calculamos la regresión (12.9.5). Todo lo que se tiene que hacer es restar la cantidad 0.8912, mul- 
tiplicada por el valor anterior de Y, de su valor actual, y de manera similar, restar 0.8912, multipli- 
cada por el valor anterior de X, de su valor actual y realizar la regresión MCO sobre las variables 
así transformadas, como en (12.9.6), donde Y = (Y, — 0.8912Y,—1) y Xf = (X, — 0.8912X,—1). 


p estimada a partir de los residuos 


Si el esquema AR(1) u, = pu—1 + e, es válido, una manera sencilla de estimar p es hacer la regre- 
sión de los residuos ù, o 41,1 de modo que las ù, sean estimadores consistentes de las verdaderas 
un como ya vimos. Es decir, hacemos la siguiente regresión: 


=p Ra En (12.9.14) 


41 1.1. Berenblutt y G.I. Webb, “A New Test for Autocorrelated Errors in the Linear Regression Model”, Journal 
of the Royal Statistical Society, Serie B, vol. 35, núm. 1, 1973, pp. 33-50. 
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donde û,, son los residuos obtenidos de la regresión original (en su forma de nivel) y v, son el 
término de error de esta regresión. Observe que no hay necesidad de introducir el término de 
intercepto en (12.9.14), porque sabemos que los residuos de MCO suman cero. 

Los residuos de la regresión de los salarios sobre la producción dados en (12.5.1) ya se calcu- 
laron en la tabla 12.5. Con esos resultados obtuvimos lo siguiente: 


f, = 0.8678%,_1 


(12.9.15) 
t = (12.7359) r? = 0.7863 


Como muestra la regresión, ð = 0.8678. Con esta estimación transformamos el modelo original 
a (12.9.6). Como la p estimada mediante este procedimiento es casi la misma que la obtenida por 
el d de Durbin-Watson, los resultados de la regresión al utilizar la p de (12.9.15) no deben ser 
muy distintos de los obtenidos mediante la p estimada con el d de Durbin-Watson. Dejamos al 
lector comprobar lo anterior. 


Métodos iterativos para estimar p 

Todos los métodos para estimar p que hemos visto proporcionan sólo una estimación de p. Pero 
existen los llamados métodos iterativos que estiman p de manera iterativa, es decir, mediante 
aproximaciones sucesivas, comenzando con algún valor inicial de p. Entre estos métodos, men- 
cionaremos los siguientes: procedimiento iterativo de Cochrane-Orcutt, procedimiento de 
dos pasos de Cochrane-Orcutt, procedimiento de dos pasos de Durbin y procedimiento 
de rastreo o de búsqueda de Hildreth-Lu. El más popular es el método iterativo de Cochrane- 
Orcutt. Para ahorrar espacio, analizaremos los métodos iterativos mediante ejercicios. Recuerde 
que el último objetivo de tales métodos es proporcionar una estimación de p con que se obtengan 
las estimaciones de los parámetros de MCG. Una ventaja del método iterativo de Cochrane-Or- 
cutt es que sirve para estimar no sólo un esquema AR(1), sino también esquemas autorregresi- 
vos de orden superior, como 4; = P14,-1 + 242 + vi, que son AR(2). Tras obtener dos p, se 
extiende con facilidad la ecuación en diferencias generalizada (12.9.6). Por supuesto, la compu- 
tadora puede ahora efectuar lo anterior. 

De regreso al ejemplo de la regresión de los salarios sobre la productividad y suponiendo un 
esquema AR(1), utilizamos el método iterativo Cochrane-Orcutt, el cual da las siguientes esti- 
maciones de p: 0.8876, 0.9944 y 0.8827. El último valor, 0.8827, ahora sirve para transformar 
el modelo original como en (12.9.6) y se estima mediante MCO. Por supuesto, los MCO en el 
modelo transformado son simplemente los MCG. Los resultados son los siguientes: 

El software Stata puede estimar los coeficientes del modelo, además de p. Por ejemplo, si 
suponemos AR(1), Stata produce los siguientes resultados: 


y = 43.1042 + 0.5712X, 


ee= (4.3722) (0.0415) (12.9.16) 
t= (9.8586) (13.7638) r? = 0.8146 


A partir de estos resultados, observamos que la rho estimada (ô) es ~ 0.8827, lo cual no difiere 
mucho de la ô de la ecuación (12.9.15). 

Como ya señalamos, en la ecuación en diferencia generalizada (12.9.6) se pierde una obser- 
vación porque la primera no tiene antecedente. Para no perder la primera observación se usa la 
transformación de Prais-Winsten. Con esta transformación y STATA (versión 10) obtenemos los 
siguientes resultados de la regresión de salarios-productividad. 


Rcompb, = 32.0434 + 0.6628 Prodb, 
ee = (3.7182) (0.0386) r? = 0.8799 (12.9.17) 
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En esta transformación, el valor p fue 0.9193, que se obtuvo después de 13 iteraciones. Debe 
señalarse que si la primera observación no se transforma a la manera de Prais-Winsten y se eli- 
mina, los resultados son a veces muy diferentes, en especial en muestras pequeñas. Observe que 
el valor obtenido aquí no difiere mucho del que se obtuvo con la ecuación (12.9.15). 


Comentarios generales 


Hay varios puntos que se deben destacar respecto de la corrección de la autocorrelación mediante 
los diversos métodos analizados. 

En primer lugar, como para muestras grandes los estimadores de MCO son consistentes, sin 
importar la autocorrelación, no afecta en nada si se estima p a partir del estadístico d de Durbin- 
Watson, de la regresión de los residuos del periodo actual sobre los residuos del periodo anterior 
o del procedimiento iterativo Cochrane-Orcutt, pues todos proporcionan estimados consistentes 
con la verdadera p. En segundo lugar, los distintos métodos analizados son básicamente métodos 
de dos pasos. En el primer paso se obtiene una estimación de la p desconocida, y en el segundo se 
utiliza dicha estimación para transformar las variables a fin de calcular la ecuación en diferencias 
generalizada, que es básicamente MCG. Pero en vista de que se utiliza ô en vez de la verdadera p, 
todos estos métodos de estimación se conocen en la bibliografía como métodos MCG factibles 
(MCGF) o MCG estimados (MCGE). 

En tercer lugar, es importante observar que siempre que se estimen los parámetros del modelo 
transformado con un método MCGF o un MCGE, los coeficientes estimados no necesariamente 
tendrán las propiedades óptimas usuales del modelo clásico, como ser MELI, sobre todo en 
muestras pequeñas. Sin adentrarnos en complejidades técnicas, podemos enunciar, como princi- 
pio general, que siempre que se utilice un estimador en lugar de su verdadero valor, los coeficien- 
tes de MCO estimados quizá presenten las propiedades óptimas usuales en forma asintótica; es 
decir, para muestras grandes. Asimismo, los procedimientos convencionales para pruebas de 
hipótesis son, en estricto sentido, válidos de modo asintótico. En consecuencia, para muestras 
pequeñas, se debe tener cuidado al interpretar los resultados estimados. 

En cuarto lugar, al utilizar MCGE, si no se incluye la primera observación (como se hizo al 
principio con el procedimiento Cochrane-Orcutt), se pueden ver afectados de modo adverso no 
sólo los valores numéricos, sino también la eficiencia de los estimadores, sobre todo si el tamaño 
de la muestra es pequeño y las regresoras no son, estrictamente hablando, no estocásticas.* 
Por tanto, en pequeñas muestras es importante conservar la primera observación al estilo Prais- 
Winsten. Desde luego, si el tamaño de la muestra es razonablemente grande, el MCGF, con o sin 
primera observación, proporciona resultados similares. A propósito, en la bibliografía, el MCGF 
con transformación Prais-Winsten se conoce como MCGF completo o MCGFC. 


12.10 El método Newey-West para corregir los errores 


estándar de MCO 


En lugar de los métodos MCGF analizados en la sección anterior, podemos conservar los MCO 
pero con los errores estándar corregidos por autocorrelación, mediante un procedimiento des- 
arrollado por Newey y West.4 Se trata de una generalización de los errores estándar consistentes 
con heteroscedasticidad de White, los cuales examinamos en el capítulo anterior. Los errores es- 
tándar corregidos se conocen como errores estándar CHA (consistentes con heteroscedastici- 
dad y autocorrelación), o simplemente errores Newey-West. No abordaremos las matemáticas 


42 Esto es especialmente cierto si las regresoras muestran una tendencia, lo cual es muy común en los datos 
económicos. 

43 W.K. Newey y K. West, “A Simple Positive Semi-Definite Heteroscedasticity and Autocorrelation Consistent 
Covariance Matrix”, Econometrica, vol. 55, 1987, pp. 703-708. 
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propias del procedimiento Newey-West, pues son complejas,** pero la mayoría de los programas 
estadísticos modernos calcula los errores estándar Newey-West. Sin embargo, resulta importante 
destacar que el procedimiento Newey-West es, en estricto sentido, válido para muestras grandes, 
aunque quizá no sea adecuado para muestras pequeñas. No obstante, para muestras grandes ahora 
hay un método que origina errores estándar corregidos por autocorrelación, así que no hay que 
preocuparse por las transformaciones MCGF analizadas en capítulos anteriores. Por tanto, si una 
muestra es razonablemente grande, debe utilizarse el procedimiento Newey-West para corregir 
los errores estándar de MCO, no sólo para situaciones de autocorrelación, sino también para 
casos de heteroscedasticidad, pues el método CHA puede abordar ambos casos, a diferencia del 
método White, diseñado específicamente para la heteroscedasticidad. 

Veamos una vez más el ejemplo de la regresión de salarios sobre productividad (12.5.1). 
Sabemos que esta regresión muestra autocorrelación. La muestra de 46 observaciones es razona- 
blemente grande, por lo que podemos utilizar el procedimiento CHA. Con EViews 4 obtenemos 
los siguientes resultados de la regresión: 


Y, =32.7419 + 0.6704X, 
ee = (2.9162) (0.0302) (12.10.1) 
r? = 0.9765 d= 0.1719 


donde * denota errores estándar CHA. 

Al comparar esta regresión con (12.5.1) encontramos que en ambas ecuaciones los coeficien- 
tes estimados y el valor r? son iguales. Pero es importante observar que los errores estándar CHA 
son mucho mayores que los errores estándar de MCO, y por tanto las razones t CHA son mucho 
más pequeñas que las razones £ de MCO. Lo anterior demuestra que en realidad MCO subestimó 
los errores estándar verdaderos. Resulta curioso que el estadístico d para los modelos (12.5.1) y 
(12.10,1) sea el mismo. Pero no hay de qué preocuparse, pues el procedimiento CHA ya tomó 
esto en cuenta al corregir los errores estándar MCO. 


12.11 MCO versus MCGF y CHA 


El problema práctico que enfrenta el investigador es: en presencia de autocorrelación, los esti- 
madores de MCO —aunque no están sesgados, son consistentes y están distribuidos de manera 
normal y asintótica—, no son eficientes. En consecuencia, ya no es adecuado el procedimiento 
de inferencia usual basado en las pruebas £, F y x°. Por otra parte, los procedimientos MCGF y 
CHA producen estimadores eficientes, pero sus propiedades finitas, o para muestras pequeñas, no 
están bien documentadas. Esto significa que, para muestras pequeñas, MCGF y CHA en realidad 
pueden resultar peores que los MCO. De hecho, en un estudio Monte Carlo, Griliches y Rao* 
encontraron que si la muestra es relativamente pequeña y el coeficiente de autocorrelación p es 
menor que 0.3, MCO es igual o mejor que MCGE. Así, como cuestión práctica, se puede utilizar 
MCO para muestras pequeñas en las que el p estimado sea, por ejemplo, menor que 0.3. Por 
supuesto, siempre es relativo afirmar qué es pequeño y qué es grande, así que aquí entra el sen- 
tido común. Si sólo hay 15 o 20 observaciones, la muestra puede ser pequeña, pero si en cambio 
existen 50 o más observaciones, la muestra puede ser razonablemente grande. 


44 Si el lector conoce el álgebra matricial, el método se analiza en la obra de Greene, op. cit., 4a. ed., pp. 
462-463. 

45 Z, Griliches y P. Rao, “Small Simple Properties of Several Two-stage Regression Methods in the Context of 
Autocorrelated Errors”, Journal of the American Statistical Association, vol. 64, 1969, pp. 253-272. 
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12.12 Otros aspectos de la autocorrelación 


Variables dicótomas y autocorrelación 


En el capítulo 9 analizamos los modelos de regresión con una variable dicótoma. En particular, 
recuerde el modelo de regresión del ahorro sobre el ingreso estadounidenses de 1970 a 1995, que 
presentamos en (9.5.1), y que reproducimos a continuación: 


Y, =01 +09D, + B1X, + BaA(D¡X,) + ur (12.12.1) 


donde Y = ahorro 
X = ingreso 
D = 1 para observaciones de 1982 a 1995 
D = 0 para observaciones de 1970 a 1981 


Los resultados de la regresión basados en este modelo se dan en (9.5.4). Por supuesto, este mo- 
delo se estimó con los supuestos usuales para MCO. 

Pero ahora suponga que u, sigue un esquema autorregresivo de primer orden, AR(1). Es decir, 
Ut = pu,_1 + £ Por lo común, si se conoce p o se calcula mediante uno de los métodos vistos 
antes, podemos utilizar el método de diferencias generalizado para calcular los parámetros del 
modelo que no presenta autocorrelación (de primer orden). No obstante, la presencia de la va- 
riable dicótoma D plantea un problema: observe que la variable dicótoma simplemente clasifica 
una observación como perteneciente al primero o al segundo periodo. ¿Cómo la transformamos? 
Seguimos el siguiente procedimiento:* 


1. En (12.12.1), los valores de D son cero para todas las observaciones del primer periodo; 
en el periodo 2, el valor de D para la primera observación es 1/(1 — p) en vez de 1, y es 1 para 
las demás observaciones. 


2. La variable X, se transforma como (Y, — pX,_¡). Observe que se pierde una observación 
en esta transformación, a menos que se recurra a la transformación de Prais-Winsten para la 
primera observación, como se observó antes. 


3. El valor de D,X, es cero para todas las observaciones en el primer periodo (nota: D; es 
cero en el primer periodo); en el segundo periodo, la primera observación toma el valor de 
D,X,=X, y las observaciones restantes en el segundo periodo se igualan a (D,X, — Dip X -1) = 
(X: — pX;_1). (Vota: el valor de D; en el segundo periodo es 1.) 


Como señala el análisis anterior, la observación crítica es la primera observación del segundo 
periodo. Si se tiene cuidado en la forma que aquí se acaba de indicar, no debe haber problema 
al estimar regresiones como (12.12.1), sujetas a la autocorrelación AR(1). En el ejercicio 12.37 
se pide al lector llevar a cabo esa transformación para los datos de ahorro e ingreso en Estados 
Unidos del capítulo 9. 


Modelos ARCH y GARCH 


Justo como el término de error u en el tiempo f puede estar correlacionado con el término de 
error en el tiempo (t — 1) en un esquema AR(1), o con varios términos de error rezagados en el 
esquema general AR(p), ¿puede existir autocorrelación en la varianza 0? en el tiempo t, respecto 
de sus valores rezagados uno o más periodos? Los investigadores que trabajan en el pronóstico de 
series de tiempo financieras, como precios accionarios, tasas de inflación y tasas de cambio 
de divisas, han observado dicha autocorrelación. A tal autocorrelación se le han dado nombres 
más bien intimidantes, como heteroscedasticidad condicional autorregresiva (ARCH), si la 
varianza del error está relacionada con el término del error al cuadrado en el periodo anterior, 
y heteroscedasticidad condicional autorregresiva generalizada (GARCH,), si la varianza del 


46 Véase Maddala, op. cit., pp. 321-322. 
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error está relacionada con los términos del error al cuadrado de varios periodos en el pasado. 
Como este tema pertenece al área general de la econometría de las series de tiempo, lo veremos 
con mayor profundidad en los capítulos correspondientes. El objetivo aquí es señalar que la au- 
tocorrelación no sólo abarca las relaciones entre los términos del error actuales y anteriores, sino 
también las varianzas de los errores actuales y anteriores. 


Coexistencia de la autocorrelación y la heteroscedasticidad 


¿Qué pasa si un modelo de regresión presenta heteroscedasticidad y autocorrelación? ¿Podemos 
resolver este problema de manera secuencial, es decir, abordar primero la heteroscedasticidad 
y luego la autocorrelación? De hecho, un autor afirma que: “La autocorrelación sólo se puede 
detectar después de controlar la heteroscedasticiad”.*” Pero, ¿podemos desarrollar una prueba 
omnipotente que resuelva de manera simultánea esos problemas y otros más (por ejemplo, la es- 
pecificación de modelo)? Sí, tales pruebas existen, pero su estudio trasciende los objetivos de este 
libro, por lo que lo dejamos para consulta en las referencias.“ Sin embargo, como ya señalamos, 
podemos usar los errores estándar CHA, pues toman en cuenta tanto la autocorrelación como la 
heteroscedasticidad, siempre que la muestra sea razonablemente grande. 


12.13 Ejemplo para concluir 


En el ejemplo 10.2 presentamos datos sobre consumo, ingreso, riqueza y tasas de interés en Esta- 
dos Unidos, todos en términos reales. Con base en estos datos estimamos la siguiente función de 
consumo para Estados Unidos de 1947 a 2000, con la regresión del logaritmo de consumo sobre 
los logaritmos de ingreso y de riqueza. No expresamos la tasa de interés en forma de logaritmo 
porque algunas cifras relativas a la tasa de interés real eran negativas. 


Variable dependiente: 1n (CONSUMO) 
Método: Mínimos cuadrados 


Muestra: 1947-2000 


Observaciones incluidas: 54 


Coeficiente Error estándar Estadístico t Probabilidad 

C -0.467711 0.042778 -10.93343 0.0000 

ln (INGRESO) 0.804873 0.017498 45.99836 0.0000 

ln (RIQUEZA) 0.201270 0.017593 11.44060 0.0000 

INTERÉS -0.002689 0.000762 -3.529265 0.0009 
R cuadrada 0.999560 Media de la variable dependiente 7.826093 

R cuadrada ajustada 0.999533 Desv. est. de la variable 

Error estándar de la regresión 0.011934 dependiente 0.552368 
Suma de cuadrados residual 0.007121 Estadístico F 37832.59 
Log verosimilitud 164.5880 Probabilidad (estadístico F) 0.000000 
Estadístico de Durbin-Watson 1.289219 


Como era de esperar, las elasticidades del ingreso y la riqueza son positivas, y la semielasticidad 
de la tasa de interés, negativa. Aunque al parecer los coeficientes estimados son muy signifi- 
cativos estadísticamente en lo individual, se precisa una inspección para detectar una posible 
autocorrelación en el término de error. Como sabemos, en presencia de autocorrelación, pueden 


47 Lois W. Sayrs, Pooled Time Series Analysis, Sage, California, 1989, p. 19. 


48 Véase Jeffrey M. Wooldridge, op. cit., pp. 402-403, y A.K. Bera y C.M. Jarque, “Efficient Tests for Norma- 
lita, Homoscedasticity and Serial Independence of Regression Residuals: Monte Carlo Evidence”, Economic 
Letters, vol. 7, 1981, pp. 313-318. 
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subestimarse los errores estándar estimados. Al examinar el estadístico d de Durbin-Watson, 
parece que en los términos de error de la función de consumo hay autocorrelación (de primer 
grado) (verifíquelo). 

Para confirmar esto, estimamos la función de consumo teniendo en cuenta la autocorrelación 
AR(1). Los resultados son los siguientes: 


Variable dependiente: 1nCONSUMO 

Método: Mínimos cuadrados 

Muestra (ajustada): 1948-2000 

Observaciones incluidas: 53 después de los ajustes 
Convergencia lograda después de 11 iteraciones 


Coeficiente Error estándar Estadístico t Probabilidad 
Cc -0.399833 0.070954 -5:. 635112 0.0000 
1nINGRESO 0.845854 0.029275 28.89313 0.0000 
1INRIQUEZA 0.159131 0.027462 5.794501 0.0000 
INTERÉS 0.001214 0.000925 1.312986 0.1954 
AR (1) 0.612443 0.100591 6.088462 0.0000 
R cuadrada 0.999688 Media de la variable dependiente 7.843871 
R cuadrada ajustada 0.999662 Desviación estándar de la 
Error estándar de la regresión 0.009954 variable dependiente 0.541833 
Suma de cuadrados residual 0.004756 Estadístico F 38503.91 
Log verosimilitud 171.7381 Probabilidad (estadístico F) 0.000000 
Estadístico de Durbin-Watson 1.874724 


Estos resultados muestran claramente la presencia de autocorrelación en la regresión. Se deja 
al lector la tarea de eliminar la autocorrelación mediante alguna de las transformaciones anali- 
zadas en este capítulo. Puede usar la p estimada de 0.6124 para las transformaciones. A con- 
tinuación presentamos los resultados basados en errores estándar Newey-West (CHA) que 
toman en cuenta la autocorrelación. 


Variable dependiente: 1nCONSUMO 
Método: Mínimos cuadrados 
Muestra: 1947-2000 
Observaciones incluidas: 54 


Errores estándar Newey-West CHA y covarianza (truncamiento de rezago = 3) 
Coeficiente Error estándar Estadístico t Probabilidad 
E -0.467714 0.043937 -10.64516 0.0000 
INGRESO 0.804871 0.017117 47.02132 0.0000 
RIQUEZA 0.201272 0.015447 13.02988 0.0000 
INTERÉS 0.002689 0.000880 -3.056306 0.0036 
R cuadrada 0.999560 Media de la variable dependiente 7.826093 
R cuadrada ajustada 0.999533 Desviación estándar de la 
Error estándar de la regresión 0.011934 variable dependiente 0.552368 
Suma de cuadrados residual 0.007121 Estadístico F 37832.71 
Probabilidad (estadístico F) 0.000000 
Estadístico de Durbin-Watson 1.289237 


La diferencia principal entre la primera y la última de las regresiones anteriores es que los errores 
estándar de los coeficientes estimados cambiaron de manera considerable. Pese a ello, los coefi- 
cientes estimados de las pendientes son aún muy significativos estadísticamente. Sin embargo, no 
hay garantía de que siempre será así. 
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Resumen y 
conclusiones 


10. 


11. 


. Si se viola el supuesto del modelo clásico de regresión lineal de que los errores o las pertur- 


baciones u, consideradas dentro de la función de regresión poblacional (FRP) son aleatorios 
o no correlacionados, surge el problema de autocorrelación o correlación serial. 


. La autocorrelación surge por diversas razones, como la inercia o pasividad de las series de 


tiempo económicas, el sesgo de especificación resultante de excluir variables importantes 
del modelo o de utilizar la forma funcional incorrecta, el fenómeno de la telaraña, el manejo 
y transformación de datos, etc. Como resultado, es útil distinguir entre la autocorrelación 
pura y la autocorrelación “inducida”, debido a uno o más de los factores que acabamos de 
mencionar. 


. Aunque en presencia de autocorrelación los estimadores de MCO se mantienen insesgados, 


consistentes y distribuidos asintóticamente en forma normal, dejan de ser eficientes. Como 
resultado, las pruebas x°, t y F usuales no son aplicables legítimamente. Por tanto, se necesita 
la aplicación de medidas correctivas. 


. El remedio depende de la naturaleza de la interdependencia entre las perturbaciones u,. Pero 


como las u; no son observables, la práctica común es suponer que algún mecanismo las ge- 
neró. 


. El mecanismo más común es el esquema autorregresivo de primer orden de Markov, que 


supone que la perturbación en el tiempo actual está linealmente relacionada con el término 
de perturbación en el tiempo anterior, el coeficiente de autocorrelación p que da el grado de 
interdependencia. Este mecanismo se conoce como esquema AR(1). 


. Si el esquema AR(1) es válido y se conoce el coeficiente de autocorrelación, el problema de 


correlación serial se resuelve fácilmente mediante la transformación de los datos según el 
procedimiento de diferencias generalizado. El esquema AR(1) se generaliza sin dificultad a 
un esquema AR(p). También se puede suponer un mecanismo de promedios móviles (PM) o 
una mezcla de los esquemas AR y PM, conocido como ARMA, Estudiaremos este tema en 
los capítulos sobre econometría de series de tiempo. 


. Aunque utilicemos un esquema AR(1), el coeficiente de autocorrelación p no se conoce a 


priori. Consideramos diversos métodos para estimar p, como el d de Durbin-Watson, el d 
modificado de Theil-Nagar, el procedimiento de dos etapas de Cochrane-Orcutt (C-O), el 
procedimiento iterativo C-O y el método de dos etapas de Durbin. En muestras grandes, 
estos métodos suelen producir estimaciones similares de p, aunque en muestras pequeñas 
tienen un desempeño diferente. En la práctica, el método iterativo C-O ha cobrado gran po- 
pularidad. 


. Con cualquiera de los métodos que acabamos de estudiar, podemos utilizar el método de 


diferencias generalizado para calcular los parámetros del modelo transformado mediante 
MCO, que en esencia es lo mismo que MCG. Pero en vista de que se estima p (= Ô), este 
método de estimación se conoce como factible, o estimado, y se abrevia MCG, MCGF o 
MCGE. 


. Al utilizar MCGE, se debe tener cuidado al eliminar la primera observación, pues en mues- 


tras pequeñas la inclusión o exclusión de la primera observación puede influir de manera 
drástica en los resultados. Por tanto, para muestras pequeñas, es aconsejable transformar la 
primera observación de acuerdo con el procedimiento Prais-Winsten. Sin embargo, en mues- 
tras grandes no importa si se incluye o excluye la primera observación. 


Es muy importante notar que el método de MCGE presenta las propiedades estadísticas óp- 
timas usuales sólo en muestras grandes. Para muestras pequeñas, el método de MCO puede 
resultar realmente mejor que el MCGE, sobre todo si p < 0.3. 


En lugar de utilizar MCGE, todavía se pueden usar MCO, pero corrigiendo la autocorrela- 
ción de los errores estándar mediante el procedimiento CHA de Newey-West. En estricto 
sentido, este procedimiento es válido para muestras grandes. Una ventaja es que no sólo 
corrige la autocorrelación, sino también la heteroscedasticidad, en su caso. 
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12. Por supuesto, antes del remedio está la detección de la autocorrelación. Existen métodos 
formales e informales de detección. Entre los informales está el de simplemente graficar los 
residuos estandarizados o reales, o graficar los residuos reales respecto de los residuos ante- 
riores. Entre los métodos formales se encuentran la prueba de rachas, la prueba d de Durbin- 
Watson, la de normalidad asintótica, la de Berenblutt-Webb y la de Breusch-Godfrey (BG). 
De todas, la más popular es la prueba d de Durbin-Watson. A pesar de su ilustre pasado, esta 
prueba tiene graves limitaciones. Es mejor la prueba BG, pues es más general debido a que 
permite las estructuras de error AR y PM, así como la presencia de la regresada rezagada 
como variable explicativa. Pero tenga en cuenta que es una prueba para muestras grandes. 


13. En este capítulo también analizamos de manera muy sucinta la detección de la autocorrela- 
ción en presencia de variables dicótomas. 


EJERCICIOS Preguntas 


12.1. Establezca si las siguientes afirmaciones son verdaderas o falsas. Justifique su respuesta 
brevemente. 


IBA 


BS. 


a) 
b) 
c) 


d) 


e) 


Cuando hay presencia de autocorrelación, los estimadores de MCO son sesgados e 
ineficientes. 

La prueba d de Durbin-Watson supone que la varianza del término de error u, es 
homoscedástica. 

La transformación de primeras diferencias para eliminar la autocorrelación supone 
que el coeficiente de autocorrelación p es —1. 

Los valores R? de dos modelos, de los cuales uno corresponde a una regresión en 
forma de primeras diferencias y el otro a una regresión en su forma de nivel, no son 
directamente comparables. 

Un d de Durbin-Watson significativo no necesariamente denota autocorrelación de 
primer orden. 

En presencia de autocorrelación, las varianzas calculadas convencionalmente y los 
errores estándar de los valores pronosticados son ineficientes. 

La exclusión de una o varias variables importantes de un modelo de regresión puede 
producir un valor d significativo. 

En el esquema AR(1), una prueba de hipótesis de que y = 1 puede hacerse mediante 
el estadístico g de Berenblutt-Webb, lo mismo que con el estadístico d de Durbin- 
Watson. 

En la regresión de primeras diferencias de Y sobre primeras diferencias de X, si hay 
un término constante y un término de tendencia lineal, significa que en el modelo 
original hay un término de tendencia lineal y uno de tendencia cuadrática. 


Con una muestra de 50 observaciones y 4 variables explicativas, ¿qué puede decir sobre 
autocorrelación si a) d = 1.05, b) d = 1.40, c) d = 2.50 y d) d = 3.97? 

Al estudiar el movimiento en la participación de la producción de los trabajadores en 
el valor agregado (es decir, la participación laboral), Gujarati* consideró los siguientes 
modelos: 


Modelo A: Y, = fo + Bi! + u; 
ModeloB: Y, = œo + æıt + azt? +u, 


* Damodar Gujarati, “Labor's Share in Manufacturing Industries”, Industrial and Labor Relations Review, 
vol. 23, núm. 1, octubre de 1969, pp. 65-75. 
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donde Y = participación laboral y tł = tiempo. Con base en información anual de 1949 a 
1964 se obtuvieron los siguientes resultados para la industria metalúrgica básica: 


Modelo A: Y, =0.4529— 0.00414  R2=0.5284  d=0.8252 
(3.9608) 


Modelo B: Y, =0.4786—  0.01271+ 0.0005 
(32724) QT 
R?2=0.6629  d=1.82 


donde las cifras entre paréntesis son las razones t. 
a) ¿Hay correlación serial en el modelo A? ¿En el modelo B? 
b) ¿Qué explica la correlación serial? 
c) ¿Cómo distinguiría entre autocorrelación “pura” y sesgo de especificación? 
12.4. Detección de la autocorrelación: prueba de la razón de von Neumann.” Suponiendo que 


los residuos ù, se obtienen aleatoriamente de una distribución normal, von Neumann 
demostró que para n grande, la razón 


2 NA 0-1 
s  yú-4?/n 


llamada razón de von Neumann, tiene una distribución aproximadamente normal con 
media 


Nota: û = 0 en MCO 


y varianza 


8? > n—2 
= 4n 
SE (n + 1)(n — 1) 


a) Sin es lo bastante grande, ¿cómo utilizaría la razón de von Neumann para probar la 
autocorrelación? 

b) ¿Cuál es la relación entre la d de Durbin-Watson y la razón de von Neumann? 

c) El estadístico d se encuentra entre 0 y 4. ¿Cuáles son los límites correspondientes para 
la razón de von Neumann? 

d) Como la razón depende del supuesto de que las ô se obtienen aleatoriamente de una 
distribución normal, ¿qué validez tiene este supuesto para los residuos de MCO? 

e) Si en una aplicación se encontró que la razón era 2.88 con 100 observaciones; evalúe 
la hipótesis de que no hay correlación serial en los datos. 

Nota: B.I. Hart tabuló los valores críticos de la razón de von Neumann para tama- 

ños de muestras de hasta 60 observaciones.' 


12.5. En una sucesión de 17 residuos, 11 positivos y 6 negativos, el número de rachas fue de 3. 
¿Hay aquí evidencia de autocorrelación? ¿Cambiaría el resultado si hubiera 14 rachas? 


*J. von Neumann, “Distribution of the Ratio of the Mean Square Successive Difference to the Variance”, An- 
nals of Mathematical Statistics, vol. 12, 1941, pp. 367-395. 


Y La tabla se encuentra en Johnston, op. cit., 3a. ed., p. 559. 
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12.6. Estimación de p de Theil-Nagar basada en el estadístico d. Theil y Nagar propusieron 
que, en muestras pequeñas, en lugar de estimar p como (1 — d/2) se estimara como 


~ H(1-d/2)+*R 
A 
donde n = número total de observaciones, d = d de Durbin-Watson y k = número de 
coeficientes que se van a estimar (incluso el intercepto). 

Muestre que, para una n grande, esta estimación de p es igual a la obtenida por la 
fórmula más simple (1 — d/2). 


12.7. Estimación de p: procedimiento de búsqueda o exploración de Hildreth-Lu.* Como en el 
esquema autorregresivo de primer orden 


Ut = PUy-1 + Es 


se espera que p se encuentre entre —1 y +1, Hildreth y Lu proponen una “exploración” 
o procedimiento sistemático de búsqueda para localizarlo. Recomiendan seleccionar p 
entre —1 y +1 con intervalos, por ejemplo, de 0.1 de unidad, y transformando los datos 
mediante la ecuación en diferencias generalizada (12.6.5). Así, se puede seleccionar p de 
—0.9, —0.8, . . . , 0.8, 0.9. Para cada p seleccionada se efectúa la ecuación en diferencias 
generalizada y se obtiene la SCR asociada: $` 22?. Hildreth y Lu proponen seleccionar el 
valor de p que minimice SCR (por tanto, se maximiza R?). Si se requiere mayor refina- 
ción, se sugieren intervalos unitarios más pequeños, es decir, de 0.01 de unidad, como 
—0.99, —0.98, . . . , 0.90, 0.91, y así sucesivamente. 
a) ¿Cuáles son las ventajas del procedimiento Hildreth-Lu? 
b) ¿Cómo se sabe que el valor p seleccionado en última instancia para transformar los 
datos garantizará en realidad una >> ù? mínima? 


12.8. Estimación de p: el procedimiento iterativo Cochrane-Orcutt (C-O).* Como ilustración 
de este método, considere el modelo de dos variables: 


Y, = Bi + B2X, +u, (1) 
y el esquema AR(1) 
Ut = pui En —l<p<1 (2) 


Cochrane y Orcutt recomendaron lo siguiente para estimar p. 


1. Calcule (1) mediante la rutina usual de MCO y obtenga los residuos ù,. A propósito, 
observe que puede haber más de una variable X en el modelo. 


2. Con los residuos calculados en el paso 1, haga la siguiente regresión: 
YA = Pur: + vi (3) 


que es la contraparte empírica de (2).* 
3. Con ô obtenida en (3), calcule la ecuación en diferencias generalizada (12.9.6). 


* G. Hildreth y J.Y. Lu, “Demand Relations with Autocorrelated Disturbances”, Michigan State University, 
Agricultural Experiment Station, Tech. Bull. 276, noviembre de 1960. 

TD. Cochrane y G.H. Orcutt, “Applications of Least-Square Regressions to Relationships Containing Autoco- 
rrelated Error Terms”, Journal of the American Statistical Association, vol. 44, 1949, pp. 32-61. 

t Observe que ô = Y úrúr—1/ X 0? (¿por qué?). Aunque sesgada, ô es un estimador consistente de la 
verdadera p. 
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12.0 


12.10. 


4. Como no se sabe a priori si la ô obtenida de (3) es la mejor estimación de p, sustituya 
los valores de f¡ y 2%, del paso (3) para la regresión original (1), y obtenga los nuevos 
residuos, digamos, 42% como 


ii =Y, pi pX, (4) 


que se calculan con facilidad, pues se conocen Y, X, Bj y BP). 
5. Ahora calcule la siguiente regresión: 


=P + (5) 


que es similar a (3), y por tanto proporciona el estimado de p de la segunda ronda. 


Como desconocemos si dicha estimación de p es la mejor estimación de la verdadera 

p, calculamos la estimación de la tercera ronda, y así sucesivamente. Por esta razón el 

procedimiento C-O se llama método iterativo. Pero, ¿hasta dónde continuamos iterando? 

La recomendación general es detener las iteraciones cuando las estimaciones sucesivas 

de p difieran por una pequeña cantidad, por ejemplo, menores que 0.01 o 0.005. En el 

ejemplo de la regresión de los salarios sobre la productividad se requirieron alrededor de 
tres iteraciones antes de detenerse. 

a) Con el procedimiento iterativo de Cochrane-Orcutt estime p en la regresión de los 
salarios sobre la productividad, ecuación (12.5.2). ¿Cuántas iteraciones se requirieron 
para obtener la estimación “final” de p? 

b) Con la estimación final de p obtenida en a), estime la regresión de los salarios sobre 
la productividad, tanto eliminando la primera observación como conservándola. ¿Qué 
diferencia observa en los resultados? 


c) ¿Cree que es importante conservar la primera observación para transformar los datos 
con el fin de resolver el problema de la autocorrelación? 


Estimación de p: procedimiento de dos pasos de Cochrane-Orcutt. Es una versión abre- 
viada del procedimiento iterativo C-O. En el paso 1 se estima p a partir de la primera 
iteración, es decir, de la ecuación (3) del ejercicio anterior, y en el paso 2 se utiliza la es- 
timación de p para efectuar la ecuación en diferencias generalizada, como en la ecuación 
(4) del ejercicio anterior. A veces en la práctica este método de dos pasos proporciona 
resultados muy similares a los del procedimiento iterativo C-O, más elaborado. 

Aplique el método de dos pasos C-O para ilustrar la regresión de los salarios sobre 
la productividad (12.5.1) de este capítulo y compare los resultados con los obtenidos 
mediante el método iterativo. Ponga especial atención a la primera observación en la 
transformación. 


Estimación de p: método de dos pasos de Durbin.* Para explicar este método, expresa- 
mos de forma equivalente la ecuación en diferencia generalizada (12.9.5) como: 


Y, = BI = p)+ B2X; = BapX 1-1 + pY,-1 + €, (1) 


Durbin propone el siguiente procedimiento de dos pasos para calcular p. Primero, con- 
sidere (1) como un modelo de regresión múltiple, haga la regresión Y, sobre X,, X1 y 
Y, 1, y considere el valor estimado del coeficiente de la regresión de Y,_, (= ĝ) como 
una estimación de p. Segundo, tras obtener ô, utilícelo para estimar los parámetros de la 
ecuación en diferencias generalizada (12.9.5) o su equivalente (12.9.6). 


* J. Durbin, “Estimation of Parameters in Time Series Regression Models”, Journal of the Royal Statistical So- 
ciety, serie B, vol. 22, 1960, pp. 139-153. 


FIGURA 12.11 
Residuos de regresión 
del estudio de Nerlove. 
(Adaptado de Marc 
Nerlove, “Return to Scale 
in Electric Supply”, en 
Carl F. Christ et al., 
Measurement in Econo- 
mics, Stanford University 
Press, Stanford, Califor- 
nia, 1963.) 


FIGURA 12.12 
Residuos de regresión 
hipotéticos graficados res- 
pecto del tiempo. 


12.11. 


TIRADA 
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a) Aplique el método de dos pasos de Durbin al ejemplo de la regresión de los salarios 
sobre la productividad, analizado antes en el libro, y compare los resultados con los 
del procedimiento iterativo Cochrane-Orcutt y los del método de dos pasos C-O. Asi- 
mismo, comente respecto de la “calidad” de sus resultados. 

b) Si examina la ecuación (1) inmediata anterior, observará que el coeficiente de X,_; 
(= —pB) es igual a menos 1 por el producto del coeficiente de X((= 6») y el coefi- 
ciente de Y, (= p). ¿Cómo probaría que los coeficientes obedecen la restricción 
anterior? 


Al medir los rendimientos a escala en la oferta de electricidad, Nerlove utilizó informa- 
ción de corte transversal de 145 empresas de servicios de propiedad privada en Estados 
Unidos durante 1955 y efectuó la regresión del logaritmo del costo total sobre los lo- 
garitmos de la producción, de la tasa de salarios, del precio del capital y del precio del 
combustible. Encontró que los residuos estimados a partir de esta regresión presentaban 
correlación “serial” a juicio del d de Durbin-Watson. Para remediarlo, graficó los resi- 
duos estimados respecto del logaritmo de la producción y obtuvo la figura 12.11. 

a) ¿Qué indica la figura 12.11? 


b) ¿Cómo puede eliminar la correlación “serial” en la situación anterior? 
Al graficar los residuos de una regresión respecto del tiempo, se obtuvo el diagrama de 


dispersión de la figura 12.12. El residuo “extremo” encerrado en un círculo se denomina 
valor atípico. Un valor atípico es una observación cuyo valor excede los valores de las 


=> 


log (producción) 


Residuos de regresión 
o 


Tiempo 


Residuos de regresión 
o 
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IDAS: 


12.14. 


M2IS, 


12.16. 


IDA 


demás observaciones en la muestra por una gran cantidad, tal vez tres o cuatro desviacio- 
nes estándar alejada del valor medio de todas las observaciones. 


a) ¿Cuáles son las razones de la existencia de uno o varios valores atípicos? 


b) Si hay uno o varios valores atípicos, ¿deben descartarse esas observaciones y efectuar 
la regresión sobre las observaciones restantes? 


c) ¿Es aplicable el d de Durbin-Watson en presencia de valores atípicos? 

Con base en el estadístico d de Durbin-Watson, ¿cómo distinguiría la autocorrelación 
“pura” del sesgo de especificación? 

Suponga que en el modelo 


Y, = Pi + PB2X, + úr 


las u son en realidad serialmente independientes. ¿Qué sucedería en esta situación si, 
suponiendo que u, = pu; + €,, utilizáramos la siguiente regresión en diferencia gene- 
ralizada? 


Y, = miii = = 0) + e = oa a r E; 


Analice en particular las propiedades del término de perturbación €y. 


En un estudio de determinación de precios de la producción final a costo de factor en 
el Reino Unido se obtuvieron los siguientes resultados con base en los datos anuales de 
1951 a 1969: 


PE-= 2033 0.273, 0521%— 0.25648, 1 000281 + O121PR2] 
ee = (0.992) (0.127) (0.099) (0.024) (0.039) (0.119) 
R2=0.984  d=2.54 


donde PF = precios de la producción final a costo de factor, W = salarios por empleado, 
X = producto interno bruto por persona empleada, M = precios de importación, M,-¡ = 
precios de importación rezagados 1 año y PF,—; = precios de la producción final a costo 
de factor en el año anterior.* 

“Como para 18 observaciones y 5 variables explicativas a 5% los valores d inferior y 
superior son 0.71 y 2.06, el valor d estimado de 2.54 indica que no hay autocorrelación 
positiva”. Comente. 


Establezca las circunstancias en que sería adecuado cada uno de los siguientes métodos 
de estimación del coeficiente de autocorrelación de primer orden p: 


a) Regresión de primeras diferencias 

b) Regresión de promedios móviles 

c) Transformación Theil-Nagar 

d) Procedimiento iterativo Cochrane y Orcutt 
e) Procedimiento de exploración Hildreth-Lu 
f) Procedimiento en dos etapas de Durbin 


Considere el modelo: 
Y, = [ón + B2X, +u, 
donde 


Ut = PiU¡-1 + P2U1-2 + Es 


* Fuente: Prices and Earnings in 1951-1969: An Econometric Assessment, Department of Employment, Her 
Majesty's Stationery Office, 1971, tabla C, p. 37, ecuación 63. 
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es decir, el término de error sigue un esquema AR(2), y e, es un término de error de ruido 
blanco. Describa los pasos que seguiría para estimar el modelo si tiene en cuenta la auto- 
rregresión de segundo orden. 

12.18. Con el factor de corrección C, la fórmula para eS dada en (12.3.1) es 


pMcG — (1 — Mx) + Or — 0x1) — PYr-1) 
3 (1— pa + Pra — Px)? 


Con esta fórmula y (12.3.1), encuentre la expresión para el factor de corrección C. 
12.19. Muestre que la estimación de (12.9.5) equivale a estimar los MCG analizados en la sec- 
ción 12.3, excluyendo la primera observación en Y y en X. 
12.20. Para la regresión (12.9.9), los residuos estimados tuvieron los siguientes signos: 


HHHOH- -HHO ) 


Con base en la prueba de rachas, ¿rechaza la hipótesis nula de que no hay autocorrelación 
en estos residuos? 

*12.21. Prueba para correlación serial de orden superior. Suponga que tenemos información de 
series de tiempo sobre una base trimestral. En los modelos de regresión que consideran 
información trimestral, en lugar de utilizar el esquema AR(1) dado en (12.2.1), puede ser 
más apropiado suponer un esquema AR(4) como el siguiente: 


Ut = p4Ut—4 + Er 


es decir, suponer que el término de perturbación actual está correlacionado con el término 
para el mismo trimestre del año anterior, en lugar de estarlo con el del trimestre anterior. 

Para probar la hipótesis de que p4 = 0, Wallis? sugiere la siguiente prueba d modifi- 
cada de Durbin-Watson: 


n a A 2 
qq Ets a 


n a? 
t=1 “t 


El procedimiento de prueba sigue la rutina de la prueba d usual analizada en el texto. 
Wallis preparó las tablas d4, las cuales se encuentran en su artículo original. 

Suponga ahora que hay información mensual. ¿Puede generalizarse la prueba Durbin- 
Watson para considerar tal información? De ser así, escriba la fórmula dı2 adecuada. 


12.22. Suponga que estima la siguiente regresión: 
Aln producción, = 61 + B2Aln£, + Aln K, + u; 


donde Y es la producción, L es el insumo trabajo, K es el insumo capital y A es el ope- 
rador de primeras diferencias. ¿Cómo interpretaría $, en este modelo? ¿Puede verse 
como una estimación del cambio tecnológico? Justifique su respuesta. 


* Opcional. 

t Kenneth Wallis, “Testing for Fourth Order Autocorrelation in Quarterly Regression Equations”, Econome- 
trica, vol. 40, 1972, pp. 617-636. Las tablas de d4 se encuentran también en J. Johnston, op.cit., 3a. ed., 
p. 558. 


460 Parte Dos Flexibilización de los supuestos del modelo clásico 


12.23. Maddala sugiere que si el d de Durbin-Watson es menor que R?, se debe efectuar la regre- 
sión en forma de primeras diferencias. ¿Cuál es el razonamiento de esta sugerencia? 

12.24. Consulte la ecuación (12.4.1). Suponga r = 0, pero p % 0. ¿Cuál es el efecto sobre 
E(ô°)sia)0 < p< 1yb)—1 < p < 0? ¿Cuándo será razonablemente pequeño el sesgo 
en 6?? 

12.25. Se hizo la regresión de los residuos de la regresión de los salarios sobre la productividad 
dados en (12.5.2), sobre los residuos rezagados de seis periodos anteriores [es decir, 
AR(6)], con los siguientes resultados: 


Variable dependiente: S1 

Método: Mínimos cuadrados 

Muestra (ajustada): 1966-2005 

Observaciones incluidas: 40 después de los ajustes 


Coeficiente Error estándar Estadístico t Probabilidad 
sI (-1) 101976 0. 1710999 =5. 103275 0.0000 
sI (-2) 00029679 0.244152 =0. 121560 0.9040 
sI (-3) -=0.286782 0.241975 US il 0.2442 
sI (-4) 0.149212 0.242076 0.616386 0.5417 
Sa ((= 5) Somon ST 0.243386 -0.293240 OL 
sI (-6) 0.034362 O LEVOV 0.205663 0.8383 
R cuadrada 0.749857 Media de la variable dependiente 7.004433 
R cuadrada ajustada O TADO 7 Desviación estándar de la 
Error estándar de la regresión 0.010629 variable dependiente 0.019843 
Suma de cuadrados residual 0.003741 Estadístico de Durbin-Watson 1.956818 


a) De estos resultados, ¿qué puede decir sobre la naturaleza de la autocorrelación en los 
datos sobre salarios y productividad? 


b) Si piensa que un mecanismo AR(1) caracteriza la autocorrelación en los datos, ¿uti- 
lizaría la transformación de primeras diferencias para eliminar la autocorrelación? 
Justifique su respuesta. 


Ejercicios empíricos 
12.26. Consulte los datos sobre la industria del cobre de la tabla 12.7. 
a) Con base en esta información, estime el siguiente modelo de regresión: 


InC, =B1 + f21n/, + B3lnL,+ Ba ln H, + fs In A, + us 


Interprete los resultados. 


b) Obtenga los residuos y los residuos estandarizados de la regresión anterior y grafíque- 
los. ¿Qué opina sobre la presencia de autocorrelación en estos residuos? 


c) Estime el estadístico d de Durbin-Watson y comente sobre la naturaleza de la autoco- 
rrelación presente en los datos. 


d) Efectúe la prueba de rachas y vea si su respuesta difiere de la respuesta dada en c). 


e) ¿Cómo investigaría si un proceso AR(p) describe mejor la autocorrelación que un 
proceso AR(1)? 


Nota: guarde estos datos para un análisis posterior (ejercicio 12.28). 
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TABLA 12.7 Año C G l L H A 

Determinantes del pre- 

cio interno del cobre en 1951 21.89 330.2 45.1 220.4 1 491.0 19.00 

Estados Unidos, 52 22.29 347.2 50.9 259.5 1 504.0 19.41 

1951-1980 53 19.63 366.1 53.3 256.3 1 438.0 20.93 
54 22.85 366.3 53.6 249.3 1 551.0 21.78 
55 33.77 399.3 54.6 352.3 1 646.0 23.68 
56 39.18 420.7 61.1 329.1 1 349.0 26.01 
57 30.58 442.0 61.9 219.6 1 224.0 27.52 
58 26.30 447.0 57.9 234.8 1 382.0 26.89 
59 30.70 483.0 64.8 237.4 1 553.7 26.85 
60 32.10 506.0 66.2 245.8 1 296.1 27.23 
61 30.00 523.3 66.7 229.2 1 365.0 25.46 
62 30.80 563.8 72.2 233.9 1 492.5 23.88 
63 30.80 594.7 76.5 234.2 1 634.9 22.62 
64 32.60 635.7 81.7 347.0 1 561.0 23.72 
65 35.40 688.1 89.8 468.1 1 509.7 24.50 
66 36.60 753.0 97.8 555.0 1 195.8 24.50 
67 38.60 796.3 100.0 418.0 1 321.9 24.98 
68 42.20 868.5 106.3 525.2 1 545.4 25.58 
69 47.90 935.5 111.1 620.7 1499.5 27.18 
70 58.20 982.4 107.8 588.6 1 469.0 28.72 
71 52.00 1 063.4 109.6 444.4 2 084.5 29.00 
72 51.20 1171.1 119.7 427.8 2 378.5 26.67 
73 59.50 1 306.6 129.8 727.1 2 057.5 25.33 
74 77.30 1412.9 129.3 877.6 1352.5 34.06 
75 64.20 1 528.8 117.8 556.6 1171.4 39.79 
76 69.60 1 700.1 129.8 780.6 1 547.6 44.49 
77 66.80 1 887.2 137.1 750.7 1 989.8 51.23 
78 66.50 2127.6 145.2 709.8 2 023.3 54.42 
79 98.30 2 628.8 152.5 935.7 1 749.2 61.01 
80 101.40 2 633.1 147.1 940.9 1 298.5 70.87 


Nota: Gary R. Smith recopiló los datos de fuentes como American Metal Market, Metals Week y publicaciones del Departamento de 
Comercio de Estados Unidos. 
C = promedio de doce meses del precio interno del cobre en Estados Unidos (centavos por libra). 
G = Producto Nacional Bruto anual (miles de millones). 
T= Índice promedio de doce meses de la producción industrial. 
L = Precio promedio de doce meses del cobre en la bolsa de metales de Londres (libras esterlinas). 
H = Número de casas construidas por año (miles de unidades). 
A = Precio promedio de doce meses del aluminio (centavos de dólar por libra). 


12.27. Se proporcionan los datos de la tabla 12.8. 
a) Verifique que el d de Durbin-Watson es igual a 0.4148. 
b) ¿Hay correlación serial positiva en las perturbaciones? 
c) De ser así, estime p mediante el 
1) Método de Theil-Nagar. 
ii) Procedimiento de dos pasos de Durbin. 
iii) Método de Cochrane-Orcutt. 
Con el método de Theil-Nagar transforme los datos y efectúe la regresión con los 
datos transformados. 


d 


— 


e 


== 


¿La regresión estimada en d ) presenta autocorrelación? De ser así, ¿cómo se desharía 
de ella? 


462 Parte Dos Flexibilización de los supuestos del modelo clásico 


TABLA 12.8 


Y, gasto de consumo personal, 
miles de millones de dólares 


de 1958 X, tiempo Y, Y estimado ú, residuos 
281.4 1(=1956) 261.4208 19.9791 
288.1 2 276.6026 11.4973 
290.0 3 291.7844 1.7844 
307.3 4 306.9661 0.3338 
316.1 5 322.1479 6.0479 
322.5 6 337.3297 -14.8297 
338.4 7 352.5115 -14.1115 
353.3 8 367.6933 -14.3933 
373.7 9 382.8751 -9.1751 
397.7 10 398.0569 0.3569 
418.1 11 413.2386 4.8613 
430.1 12 428.4206 1.6795 
452.7 13 443.6022 9.0977 
469.1 14 458.7840 10.3159 
476.9 15 ( = 1970) 473.9658 2.9341 


Nota: Datos de Y obtenidos de la regresión Y, = Bo + B1X,+ ur. 


12.28. 


12,28). 


12.30. 


23I 


121321 


Consulte el ejercicio 12.26 y los datos de la tabla 12.7. Si los resultados de este ejercicio 

muestran correlación serial, 

a) Utilice el procedimiento de Cochrane-Orcutt de dos etapas y obtenga las estimaciones 
de MCG factibles o la regresión en diferencias generalizada, y compare sus resulta- 
dos. 

b) Siel p estimado del método de Cochrane-Orcutt en a) difiere sustancialmente del es- 
timado a partir del estadístico d, ¿qué método de estimación de p seleccionaría y por 
qué? 

Consulte el ejemplo 7.4. Efectúe la regresión omitiendo las variables X? y X3, y examine 
los residuos en busca de correlación “serial”. Si encuentra correlación serial, ¿cómo se 
explicaría su presencia? ¿Qué medidas correctivas recomendaría? 
Consulte el ejercicio 7.21. Con tal información, a priori se espera autocorrelación. Por 
consiguiente, se sugiere que efectúe la regresión del logaritmo de la oferta monetaria 
real sobre los logaritmos del ingreso nacional real y de la tasa de interés de largo plazo 
en la forma de primeras diferencias. Efectúe esta regresión y luego hágala de nuevo en 
la forma original. ¿Se satisface el supuesto en que se basa la transformación de primeras 
diferencias? De no ser así, ¿qué clases de sesgos es probable que resulten de tal transfor- 
mación? Explique su respuesta con los datos disponibles. 

Uso del d de Durbin-Watson para probar la no linealidad. Continúe con el ejercicio 

12.29. Ordene los residuos obtenidos en esa regresión de acuerdo con valores crecientes 

de X. Con la fórmula dada en (12.6.5), estime d a partir de los residuos reordenados. 

Si el valor d calculado indica autocorrelación, esto implicaría que el modelo lineal era 

incorrecto y que el modelo completo debe incluir los términos X? y X?. ¿Puede dar una 

justificación intuitiva para tal procedimiento? Vea si la respuesta coincide con la de Henri 

Theil.* 

Consulte el ejercicio 11.22. Obtenga los residuos y vea si hay autocorrelación en ellos. 

¿Cómo transformaría los datos en caso de detectar correlación serial? ¿Cuál es el signifi- 

cado de la correlación serial en el presente ejemplo? 


* Henri Theil, Introduction to Econometrics, Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1978, pp. 307-308. 
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12.33. Experimento Monte Carlo. Consulte las tablas 12.1 y 12.2. Con los datos sobre e, y X; que 
allí se presentan, genere una muestra de 10 valores Y del modelo 


Y; = 3.0 =F OSA, =F Ut 


donde u, = 0.9u;—1 + £r. Suponga que uy = 10. 

a) Calcule la ecuación. Comente sus resultados. 

b) Ahora suponga su uy = 17. Repita este ejercicio 10 veces y comente sus resultados. 

c) Mantenga intactos los datos anteriores, excepto que ahora permita que p = 0.3 en 
lugar de p = 0.9 y compare sus resultados con los obtenidos en b). 


12.34. Con los datos proporcionados en la tabla 12.9, estime el modelo 
Y, = Pi + P2X, + ur 


donde Y = inventarios y X = ventas, ambas medidas en miles de millones de dólares. 

a) Estime la regresión anterior. 

b) Con los residuos estimados, investigue si hay autocorrelación positiva mediante iż) la 
prueba de Durbin-Watson y ii) la prueba de normalidad para grandes muestras dada 
en (12.6.13). 

c) Si pes positivo, aplique la prueba de Berenblutt-Webb para evaluar la hipótesis de que 

pal 

Si sospecha que la estructura autorregresiva del error es de orden p, verifíquelo con la 

prueba de Breusch-Godfrey. ¿Cómo seleccionaría el orden de p? 


d 


— 


e) Con base en los resultados de esta prueba, ¿cómo transformaría los datos para elimi- 
nar la autocorrelación? Muestre todos sus cálculos. 


TABLA 12.9 Inventarios y ventas en la industria manufacturera de Estados Unidos, 1950-1991 (millones de dólares) 


Año Ventas* Inventarios? Razón Año Ventas* Inventarios? Razón 
1950 46 486 84 646 1.82 1971 224 619 369 374 1.57 
1951 50 229 90 560 1.80 1972 236 698 391 212 1.63 
1952 53 501 98 145 1.83 1973 242 686 405 073 1.65 
1953 52 805 101 599 1.92 1974 239 847 390 950 1.65 
1954 55 906 102 567 1.83 1975 250 394 382 510 1.54 
1955 63 027 108 121 1.72 1976 242 002 378 762 1.57 
1956 72 931 124 499 1.71 1977 251 708 379 706 1.50 
1957 84 790 157 625 1.86 1978 269 843 399 970 1.44 
1958 86 589 159 708 1.84 1979 289 973 424 843 1.44 
1959 98 797 174 636 1.77 1980 299 766 430 518 1.43 
1960 113 201 188 378 1.66 1981 319 558 443 622 1.37 
1961 126 905 211 691 1.67 1982 324 984 449 083 1.38 
1962 143 936 242 157 1.68 1983 335 991 463 563 1.35 
1963 154 391 265 215 1.72 1984 350 715 481 633 1.35 
1964 168 129 283 413 1.69 1985 330 875 428 108 1.38 
1965 163 351 311 852 1.95 1986 326 227 423 082 1.29 
1966 172 547 312 379 1.78 1987 334 616 408 226 1.24 
1967 190 682 339 516 1.73 1988 359 081 439 821 1.18 
1968 194 538 334 749 1.73 1989 394 615 479106 1.17 
1969 194 657 322 654 1.68 1990 411 663 509 902 1.21 
1970 206 326 338 109 1.59 


* Los datos anuales son promedios de cifras mensuales sin ajustar por estacionalidad. 
YLas cifras de fin de periodo, ajustadas por estacionalidad, comienzan en 1982 y no son comparables con periodos anteriores. 
Fuente: Economic Report of the President, 1993, tabla B-53, p. 408. 
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TABLA 12.10 

Tasa de rendimiento, 
crecimiento de la 
producción e inflación, 
Estados Unidos, 
1954-1981 


1235] 


J) Repita los pasos anteriores con el siguiente modelo: 
In Y, = B1 + P21nX, +u, 


g) ¿Cómo decidiría entre la especificación lineal y la log-lineal? Muestre explícitamente 
la(s) prueba(s) que utiliza. 


La tabla 12.10 proporciona datos sobre la tasa real de rendimiento para acciones comunes 

en el tiempo ź (RR), el crecimiento de la producción en el periodo (t + 1) (CP,,1) y la 

inflación en el periodo ź (Inf,), todos dados en porcentaje, en la economía estadounidense 

de 1954 a 1981. 

a) Haga la regresión de RR, sobre la inflación. 

b) Haga la regresión de RR, sobre el CP,,¡ e Inf, 

c) Comente los resultados de estas dos regresiones a la luz del comentario de Eugene 
Fama, respecto de que “la correlación simple negativa entre los rendimientos reales de 
las acciones y la inflación es espuria porque es el resultado de dos relaciones estruc- 
turales: una relación positiva entre los rendimientos reales actuales de las acciones y 
el crecimiento de la producción esperado [medido por CP,,1], y una relación negativa 
entre el crecimiento de la producción esperado y la inflación actual”. 

d) ¿Esperaría autocorrelación en cualquiera de las dos regresiones de a) y b)? ¿Por 
qué? Si existiera, tome las medidas correctivas apropiadas y presente los resultados 


revisados. 

Observación RR Crecimiento Inflación 
1954 53.0 6.7 -0.4 
1955 31.2 2.1 0.4 
1956 3.7 1.8 2.9 
1957 -13.8 -0.4 3.0 
1958 41.7 6.0 1.7 
1959 10.5 2.1 1.5 
1960 -1.3 2.6 1.8 
1961 26.1 5.8 0.8 
1962 -10.5 4.0 1.8 
1963 21.2 5.3 1.6 
1964 15.5 6.0 1.0 
1965 10.2 6.0 2.3 
1966 -13.3 2.7 3.2 
1967 ZAS 4.6 2 
1968 6.8 2.8 4.3 
1969 -13.5 —0.2 5.0 
1970 —0.4 3.4 4.4 
1971 10.5 5.7 3.8 
1972 15.4 5.8 3.6 
1973 -22.6 0.6 7.9 
1974 -37.3 -1.2 10.8 
1975 31.2 5.4 6.0 
1976 19.1 5.5 4.7 
1977 -13.1 5.0 5.9 
1978 -1.3 2.8 7.9 
1979 8.6 -0.3 9.8 
1980 -22.2 2.6 10.2 


1981 -12.2 -1.9 7.3 
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12.36. Estadístico h de Durbin. Considere el siguiente modelo de la determinación de salarios: 
Y, = Pi + P2X, + B3Y,-1 + ur 


donde Y = salarios = índice de remuneración real por hora 
X= productividad = índice de producción por hora 


a) Con los datos de la tabla 12.4, calcule el modelo anterior e interprete sus resultados. 


b) Como el modelo contiene a la regresada rezagada como variable regresora, el d de 
Durbin-Watson no resulta apropiado para averiguar si existe correlación serial en los 
datos. Para tales modelos, llamados autorregresivos, Durbin desarrolló el estadístico 
h para probar la autocorrelación de primer orden, el cual se define como:* 


m 
b= ol r 
PY T= nivar (Ê) 


donde n = tamaño de la muestra, var(B3) = varianza del coeficiente de la Y,_¡ reza- 
gada y ô = la estimación de la correlación serial de primer orden. 

Para un tamaño de muestra grande (técnicamente asintótica), Durbin mostró que, 
según la hipótesis nula de que p = 0, 


h ~ N(0, 1) 


es decir, el estadístico A sigue la distribución normal estandarizada. A partir de las 
propiedades de la distribución normal, sabemos que la probabilidad de que |4| > 1.96 
es de casi 5%. Por consiguiente, si en una aplicación |A| > 1.96, podemos rechazar la 
hipótesis nula de que p = 0; es decir, existe evidencia de autocorrelación de primer 
orden en el modelo autorregresivo dado antes. 

Para aplicar la prueba procedemos así: primero estime el modelo anterior mediante 
MCO (en este momento no hay que preocuparse por problemas de estimación). 
Segundo, observe var(B3) en este modelo, así como el estadístico d que se calcula de 
manera rutinaria. Tercero, con el valor d, obtenga ô ~ (1 — d/2). Resulta interesante 
notar que, a pesar de que no se puede emplear el valor d para probar la correlación 
serial en este modelo, sí se puede usar para obtener una estimación de p. Cuarto, 
ahora calcule el estadístico h. Ouinto, si el tamaño de la muestra es razonablemente 
grande y la |4| calculada excede 1.96, podemos concluir que hay evidencia de auto- 
correlación de primer orden. Por supuesto, puede usar cualquier nivel de significancia 
que desee. 

Aplique la prueba h al modelo autorregresivo de determinación del salario dado 
antes y deduzca las conclusiones apropiadas. También compare los resultados con los 
obtenidos mediante la regresión (12.5.1). 


12.37. Variables dicótomas y autocorrelación. Consulte la regresión de los ahorros sobre el in- 
greso analizada en el capítulo 9. Con los datos de la tabla 9.2 y suponiendo un esquema 
AR(1), vuelva a realizar la regresión de los ahorros sobre el ingreso, tomando en cuenta 
la autocorrelación. Ponga especial atención a la transformación de la variable dicótoma. 
Compare sus resultados con los del capítulo 9. 

12.38. Con los datos para la regresión de los salarios sobre la productividad de la tabla 12.4, es- 
time el modelo (12.9.8) y compare los resultados con los obtenidos mediante la regresión 
(12.9.9). ¿Qué conclusión(es) deduce? 


*J. Durbin, “Testing for Serial Correlation in Least-squares Regression When Some of the Regressors Are 
Lagged Dependent Variables”, Econometrica, vol. 38, pp. 410-421 


466 Parte Dos Flexibilización de los supuestos del modelo clásico 


Apéndice 12A 


12A.1 Prueba de que el término de error v en la 
ecuación (12.1.11) está autocorrelacionado 


Como v; = us — u1, resulta fácil demostrar que E(v) = E(u, — u1) = E(u) — E(u,_1) = 0, pues 
E(u) = 0, para cada t. Ahora bien, var(v,) = var(u, — u,_1) = var(u,) + var(u,_1) = 20°, pues la varianza de 
cada u; es o? y las u están independientemente distribuidas. Por tanto, v; es homoscedástica. Pero 


coy (vr, V-1) = E(vive-1) = El(u, — 4-1 MU,-1 — 41-2)] 
= =p? 


lo cual es obviamente diferente de cero. En consecuencia, aunque las u no están autocorrelacionadas, las v 
sí lo están. 


124.2 Pruebas de las ecuaciones (12.2.3), (12.2.4) y 
(12.2.5) 


Con AR(1), 
Pi = Phi PE (1) 
Por tanto, 
E(u) = pE(u-1) + E(e:) = 0 (2) 
Así que, 
var (u) = p° var (u;—1) + var (€r) €) 


porque las u y las e no están correlacionados. 
Como var (u,) = var (ur—1) = o° y var (£r) = ož, tenemos 
2 
0. 
var (4) = = (4) 
l= o 
Ahora multiplicamos (1) por u;—ı y tomamos las esperanzas en ambos miembros para obtener: 
2 2 
cov (ur, u:-1) = E(uyu;-1) = E [pu;_, +unie] = pE (u;_,) 


Se observa que la covarianza entre u,—ı y e, es cero (¿por qué?), y además que var(u,) = var(u;-1) = 
02/(1= p°), y obtenemos 


7? 
€ 
CN (Us, 4-1) = A (5) 
(1 =p?) 
Para continuar de la misma forma, 
2 
o) 
2 E 
COV (ur, uy-2) =p? 
US 
2 
o, 
3 E 
cov (ur, 4-3) =p" 
G = p) 
y así sucesivamente. Ahora el coeficiente de correlación es la razón de la covarianza respecto de la varianza. 
Por tanto, 
a 
cor (us, 4-1) = P cov (Un Uj-2) = Pp 


y así sucesivamente. 


Capítulo l > 


Creación de modelos 
econométricos: 
especificación del modelo 
y pruebas de diagnóstico 


La econometría aplicada no puede concebirse de manera mecánica: necesita comprensión, intuición 
y habilidades.' 


. . . por lo general atravesamos puentes sin preocuparnos por la solidez de su construcción, pues tene- 
mos la certeza razonable de que alguien verificó con rigor los principios y prácticas de la ingeniería. 
Los economistas deben hacer esta verificación con los modelos, o al menos anexar la siguiente adver- 


tencia a su modelo: “no nos hacemos responsables si al emplearse se provoca un colapso”.? 


La búsqueda de la “verdad” por parte de los economistas a lo largo de los años ha dado origen al 


punto de vista según el cual los economistas son personas que buscan en un cuarto oscuro un gato 
negro que no existe; a los econometristas por lo general se les acusa de haberlo encontrado.* 


Un supuesto del modelo clásico de regresión lineal (MCRL), el 9, es que el modelo de regresión 
del análisis está especificado “correctamente”; si no es así, nos enfrentamos al problema de error 
de especificación del modelo o sesgo en la especificación del modelo. En este capítulo revisa- 
remos con una mirada cuidadosa y crítica este supuesto, pues la búsqueda del modelo correcto se 
asemeja a la del Santo Grial. En particular, examinaremos las siguientes preguntas: 


1. ¿Qué hacer para encontrar el modelo “correcto”? En otras palabras, ¿cuáles son los criterios 
para elegir un modelo a partir del análisis empírico? 

2. ¿Qué tipos de errores de especificación de modelos son más comunes en la práctica? 

3. ¿Cuáles son las consecuencias de los errores de especificación? 


4. ¿Cómo se detectan los errores de especificación? En otras palabras, ¿cuáles son algunas 
herramientas de diagnóstico disponibles? 


5. Una vez detectados los errores de especificación, ¿cuáles son los remedios que se pueden 
adoptar y con qué beneficios? 
6. ¿Cómo se evalúa el desempeño de modelos contendientes? 


1 Keith Cuthberston, Stephen G. Hall y Mark P. Taylor, Applied Econometrics Techniques, Michigan University 
Press, 1992, p. X. 


2 David F. Hendry, Dynamic Econometrics, Oxford University Press, Inglaterra, 1995, p. 68. 
3 Peter Kennedy, A Guide to Econometrics, 3a. ed., The MIT Press, Cambridge Massachusetts, 1992, p. 82. 
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El tema de la especificación y evaluación de modelos es amplio, así que se requiere una tarea 
empírica muy extensa en esta área. Y no sólo eso, sino que también existen diferencias filosóficas 
sobre este asunto. Aunque no podemos abarcar por completo esta materia en un capítulo, aclara- 
remos algunos temas esenciales de la especificación y evaluación de modelos. 


13.1 Criterios de selección del modelo 


13.2 Tipos de 


De acuerdo con Hendry y Richard, la elección de un modelo para el análisis empírico debe satis- 
facer los siguientes criterios: 


1. Ser adecuado para los datos; es decir, las predicciones basadas en el modelo deben ser 
lógicamente posibles. 


2. Ser consistente con la teoría; es decir, debe tener un sentido económico pertinente. Por 
ejemplo, si es válida la hipótesis del ingreso permanente de Milton Friedman, se espera que 
el valor del intercepto en la regresión del consumo permanente sobre el ingreso permanente sea 
igual a cero. 


3. Tener regresoras exógenas débiles; es decir, las variables explicativas, o regresoras, no 
deben estar correlacionadas con el término de error. Puede añadirse que, en algunas situaciones, 
las regresoras exógenas tal vez sean estrictamente exógenas. Una variable estrictamente exó- 
gena es independiente de los valores actuales, futuros y pasados del término de error. 


4. Mostrar constancia en los parámetros; es decir, los valores de los parámetros deben ser 
estables. De otra forma el pronóstico se dificultará. Como explica Friedman: “La única prueba 
relevante de la validez de un[a] [modelo] hipótesis es la comparación de sus predicciones con la 
experiencia”.* Ante la ausencia de la constancia en los parámetros, tales predicciones no serán 
confiables. 


5. Exhibir coherencia en los datos; es decir, los residuos estimados a partir del modelo deben 
ser puramente aleatorios (técnicamente, ruido blanco). En otras palabras, si el modelo de regresión 
es adecuado, los residuos obtenidos de este modelo deben ser de ruido blanco. Si no es el caso, 
existe un error de especificación en el modelo. En breve exploraremos la naturaleza del (los) 
error(es) de especificación. 


6. Ser inclusivo; es decir, el modelo debe abarcar o incluir todos los modelos contendientes, 
en el sentido de que debe poder explicar sus resultados. En resumen, otros modelos no pueden 
ser mejores que el elegido. 


Una cosa es poner en una lista los criterios de un “buen” modelo y otra muy distinta des- 
arrollarlos en realidad, pues en la práctica es muy probable que se cometan diversos errores de 
especificación en los modelos, que analizaremos en la siguiente sección. 


errores de especificación 


Suponga que con base en los criterios recién enumerados llegamos a un modelo que aceptamos 
como bueno. En concreto, este modelo es 


Y; =B1+B2X + bX? + P4 X} + uii (13.2.1) 


donde Y = costo total de producción y X = producción. La ecuación (13.2.1) es un ejemplo de la 
función cúbica del costo total frecuente en los libros de texto. 


4 D.F. Hendry y J.F. Richard, “The Econometric Analysis of Economic Time Series”, International Statistical 
Review, vol. 51, 1983, pp. 3-33. 

5 Milton Friedman, “The Methodology of Positive Economics”, en Essays in Positive Economics, University of 
Chicago Press, Chicago, 1953, p. 7. 
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Pero suponga que, por alguna razón (por ejemplo, por pereza de graficar el diagrama de dis- 
persión), un investigador decide utilizar el siguiente modelo: 


Y; =01+0xX; + az X? + Uhi (13.2.2) 


Observe que cambiamos la notación para distinguir este modelo del modelo verdadero. 

Como se supone que (13.2.1) es verdadero, la adopción de (13.2.2) constituiria un error de 
especificación, que consiste en la omisión de una variable relevante (X°). Por consiguiente, el 
término de error uz; en (13.2.2) es de hecho 


uy = 41; + 4X? (13.2.3) 


Pronto veremos la importancia de esta relación. 
Ahora suponga que otro investigador utiliza el siguiente modelo: 


Y; =M+ MX +4xX + 4X? + às X? + uzi (13.2.4) 


Si (13.2.1) es el “verdadero” (13.2.4), también constituye un error de especificación que consiste 
en incluir una variable innecesaria o irrelevante en el sentido de que el modelo verdadero 
supone que 45 es cero. El nuevo término de error es de hecho 


Uzi = Uli — As X4 


(13.2.5) 
= Uji pues às = 0 en el modelo verdadero (¿Por qué?) 
Suponga ahora que otro investigador postula el siguiente modelo: 
hY; =y + PX; + yx? + ya X? + U4i (13.2.6) 


En relación con el modelo verdadero (13.2.6), también presenta un sesgo de especificación, en 
este caso originado por una forma funcional incorrecta: en (13.2.1) Y aparece linealmente, 
mientras que en (13.2.6) aparece en forma log-lineal. 

Por último, considere que un investigador utiliza el siguiente modelo: 


Y = p} + BX? + BiXP + BiXP + už (13.2.7) 


donde Y = Y; + £; y Xř = X; + w; con e, y w; como errores de medición. Lo que plantea 
(13.2.7) es que, en lugar de los verdaderos Y; y X;, se utilizan sus valores sustitutos, Y;* y X*, los 
cuales pueden contener errores de medición. Por consiguiente, en (13.2.7) hay un sesgo por erro- 
res de medición. En el trabajo aplicado, la información está plagada de errores de aproximación, 
errores de cobertura incompleta o tan sólo errores de omisión de algunas observaciones. En las 
ciencias sociales a menudo se depende de datos secundarios y no hay forma de conocer los tipos 
de errores, si existen, cometidos por la agencia recolectora de datos primarios. 

Otro tipo de error de especificación se relaciona con la forma como el error estocástico u; 
(o u¿) entra en el modelo de regresión. Considere por ejemplo el siguiente modelo de regresión 
bivariado sin término de intercepto: 


Y; = BX;¡u; (13.2.8) 


donde el término de error estocástico entra de forma multiplicativa y tiene la propiedad de que In 
u, satisface los supuestos del MCRL, en comparación con el siguiente modelo, 


Y, =0X; + ui (13.2.9) 


donde el término de error entra en forma aditiva. Aunque las variables son las mismas en 
ambos modelos, se denotó el coeficiente de la pendiente en (13.2.8) con £, y el coeficiente de la 
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pendiente en (13.2.9), con œ. Ahora, si (13.2.8) es el modelo “correcto” o “verdadero”, ¿la œ 
estimada proporciona una estimación insesgada de la verdadera $? Es decir, ¿será E(4) = $? Si 
no es el caso, la especificación estocástica inadecuada del término de error constituirá otra fuente 
de errores de especificación. 

Un error de especificación que a veces se pasa por alto es la interacción entre las regresoras, 
es decir, el efecto multiplicativo de una o más regresoras sobre la variable regresada. Para 
ilustrar, considere la siguiente función simplificada de salarios: 


In W; = f, + f, Escolaridad; + $3 Sexo; 
+ Pa (Escolaridad) (Sexo) + u (13.2.10) 


En este modelo, el cambio en los salarios relativos respecto de la educación depende no sólo de la 


escolaridad sino también del sexo ( ——= = B2 + f4Sexo). Asimismo, el cambio en los sala- 


rios relativos respecto del sexo depende no sólo del sexo, sino también del nivel de escolaridad. 
Para resumir, al formular un modelo empírico, es probable que se cometan uno o más de los 
siguientes errores de especificación: 


. Omisión de una variable relevante. 

. Inclusión de una variable innecesaria. 

. Adopción de la forma funcional incorrecta. 
. Errores de medición. 


. Especificación incorrecta del término de error estocástico. 


Aua Bu Domo 


. Suposición de que el término de error está normalmente distribuido. 


Antes de examinar con detalle esos errores de especificación, vale la pena distinguir entre 
errores de especificación del modelo y errores de especificación incorrecta del modelo. Los 
primeros cuatro tipos de error son en esencia errores de especificación del modelo, pues lo que 
se tiene en mente es un modelo “verdadero”, sin embargo, no estimamos el modelo correcto. En 
los errores de especificación incorrecta del modelo, para empezar, ni siquiera sabemos cuál es el 
verdadero modelo. En este contexto viene a la mente la controversia entre los keynesianos y los 
monetaristas. Estos últimos dan preferencia al dinero cuando explican los cambios en el PIB, en 
tanto que los keynesianos destacan el papel del gasto gubernamental para justificar las variacio- 
nes del PIB. Así que podemos decir que hay dos modelos rivales. 

En lo que resta del capítulo veremos primero los errores de especificación de modelos y luego 
los errores de la mala especificación de modelos. 


13.3 Consecuencias de los errores de especificación del modelo 


Independientemente de las fuentes de los errores de especificación, ¿cuáles son las consecuen- 
cias? Para no complicar este análisis, responderemos en el contexto del modelo con tres variables 
y consideraremos en detalle dos tipos de errores de especificación ya analizados, a saber: 1) 
subajuste de un modelo, es decir, la omisión de variables relevantes, y 2) sobreajuste de un 
modelo, es decir, la inclusión de variables innecesarias. Por supuesto, los resultados se pueden 
generalizar al caso de más de dos regresoras, pero mediante manejo algebraico tedioso; una vez 
que se tienen casos de más de tres variables, el álgebra matricial se convierte en necesidad. 


é Véase, sin embargo, el ejercicio 13.32. 
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Omisión de una variable relevante 
(subajuste de un modelo) 
Suponga que el verdadero modelo es 


Y, = bi + B2X2; + B3X3; + ui (13.3.1) 
pero, por alguna razón ajustamos el siguiente modelo: 
Y, = di +09X) + vi (13.3.2) 


Las consecuencias de omitir X; son las siguientes: 


1. Si la variable excluida, u omitida, A% está correlacionada con la variable incluida X2, es 
decir, r23, el coeficiente de correlación entre las dos variables es diferente de cero, 41 y %, son 
sesgados e inconsistentes. Es decir, E(41) no es igual a £; y E(&2) no es igual a £2, y el sesgo no 
desaparece conforme aumenta el tamaño de la muestra. 


2. Aunque X y X; no estén correlacionados, &; es sesgado, pese a que â sea ahora inses- 
gado. 


3. La varianza de la perturbación o? está incorrectamente estimada. 


4. La varianza medida convencionalmente de ê ( = o?/ y 4) es un estimador sesgado de 
la varianza del verdadero estimador 62. 


5. En consecuencia, es probable que el intervalo de confianza usual y los procedimientos de 
pruebas de hipótesis conduzcan a conclusiones equivocadas sobre la significancia estadística 
de los parámetros estimados. 


6. Otra consecuencia es que los pronósticos basados en el modelo incorrecto y los intervalos 
(de confianza) del pronóstico no son confiables. 


Aunque las pruebas de cada una de las afirmaciones anteriores escapan por mucho al tema,” 
en el apéndice 13A, sección 13A.1, se demuestra que 


E(02) = Ba + P3bz2 (13.3.3) 


donde b32 es la pendiente en la regresión de la variable excluida A3 sobre la variable incluida 
X (b32 = Y 13:25 / X x2). Como se ve en (13.3.3), %, está sesgada, a menos que fB3 o b32, O 
ambas, sean cero. Eliminamos $3 haciéndola cero porque en ese caso, para empezar, ni siquiera 
hay error de especificación. El coeficiente b32 será cero si X y X3 no están correlacionadas, lo 
cual es poco probable en la mayoría de los datos económicos. 

Sin embargo, por lo general, la amplitud del sesgo depende del término del sesgo, ß3b32. Si, 
por ejemplo, $3 es positiva (es decir, X; tiene un efecto positivo sobre Y) y b32 es positiva (es 
decir, X> y X; están positivamente correlacionadas), &2, en promedio, sobreestimará a la verda- 
dera f2 (es decir, al sesgo positivo). Pero este resultado no debe sorprender, pues X representa 
no solamente su efecto directo sobre Y sino también su efecto indirecto (a través de X3) sobre 
Y. En resumen, X obtiene relevancia por la influencia que debe atribuirse a X3, sin permitir que 
esta última muestre su efecto explícitamente porque no se le “permite” ingresar al modelo. Como 
ejemplo concreto, considere el que analizamos en el capítulo 7 (ejemplo 7.1). 


7 Para un tratamiento algebraico, véase Jan Kmenta, Elements of Econometrics, Macmillan, Nueva York, 1971, 
pp. 391-399. Quienes conozcan el álgebra matricial pueden consultar J. Johnston, Econometric Methods, 4a. 
ed., McGraw-Hill, Nueva York, 1997, pp. 119-122. 
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EJEMPLO 13.1 


Ejemplo ilustrativo: 


De nuevo la morta- 
lidad infantil 


Al hacer la regresión de la mortalidad infantil (MI) sobre el PIB per cápita (PIBPC) y sobre la tasa 
de alfabetización de las mujeres (TAM) obtuvimos los resultados de la ecuación (7.6.2), con 
los valores parciales de los coeficientes de pendiente de las dos variables —0.0056 y —2.2316, 
respectivamente. Pero si ahora eliminamos la variable (TAM) obtenemos los resultados de la 
ecuación (7.7.2). Si consideramos que (7.6.2) es el modelo correcto, entonces (7.7.2) es un mo- 
delo mal especificado, pues omite la variable relevante TAM. Ahora podemos observar que, en 
el modelo correcto, el coeficiente de la variable PIBPC fue —0.0056, en tanto que en el modelo 
“incorrecto” (7.7.2) es ahora de —0.0114. 

En términos absolutos, ahora la variable PIBPC tiene un mayor impacto sobre la MI en com- 
paración con el verdadero modelo. Pero si hacemos la regresión de TAM sobre PIBPC (la regre- 
sión de la variable excluida sobre la incluida), el coeficiente de pendiente en la regresión [b32 en 
términos de la ecuación (13.3.3)] es 0.00256.3 Lo anterior indica que conforme PIBPC aumen- 
ta una unidad, en promedio, TAM se incrementa 0.00256 unidades. Pero si TAM aumenta esas 
unidades, su efecto en MI será (-2.2316)(0.00256) = B3b32 = —0.00543. 

Por tanto, de (13.3.3) tenemos al final (B2 + B3b32) = [-0.0056 + (-2.2316)(0.00256)] = 
0.0111, que es casi el valor del coeficiente PIBPC, obtenido en el modelo incorrecto (7.7.2).? 
Como ilustra este ejemplo, el verdadero efecto del PIBPC sobre la MI es mucho menor (0.0056) 
de lo que indica el modelo incorrecto (7.7.2), a saber, (0.0114). 


Examinemos ahora las varianzas de 0% y f2 


var (07) = (13.3.4) 


A o2 2 
2 = FIV 13.3.5 
"eaea 13 a 


donde FIV (una medida de colinealidad) es el factor inflacionario de la varianza [ = 1/(1 — ra) 
analizada en el capítulo 10 y r23 es el coeficiente de correlación entre las variables X y X3; las 
ecuaciones (13.3.4) y (13.3.5) resultan familiares pues las vimos en los capítulos 3 y 7. 

Como las fórmulas (13.3.4) y (13.3.5) no son iguales, en general la var(&2) será diferente de 
la var(B)). Pero sabemos que var(B2) es insesgada (¿por qué?). Por ole var(d,) es sesgada, 
de modo que justifica el enunciado del punto 4 anterior. Como 0 < r2, < 1, parece que en el 
presente caso var(%2) < (Êz). Ahora surge un dilema: aunque 0) sea sesgada, su varianza es más 
pequeña que la varianza del estimador Ba insesgado (por supuesto, desechamos el caso en el que 
r23 = 0, pues en la práctica existe cierto grado de correlación entre las regresoras). Por consi- 
guiente, se trata de una situación en que hay que sacrificar una cosa por otra. 1? 

Pero aún no termina esto, pues la o? estimada del modelo (13.3.2) y la estimada del modelo 
verdadero (13.3.1) no son iguales, ya que la SCR de los dos modelos, así como sus grados de 
libertad (gl) son distintos. Recordará que obtuvimos un estimado de o? como ô? = SCR/gl, 
lo cual depende del número de regresoras incluidas en el modelo, así como de los gl (= n, 


8 Los resultados de la regresión son: 


TAM = 47.5971 + 0.00256PIBPC 
ee = (3.5553) (0.0011) r?= 0.0721 


? Observe que en el modelo verdadero $2 y $3 son estimaciones insesgadas de sus valores verdaderos o reales. 
10 A fin de superar el dilema entre el sesgo y la eficiencia, se puede elegir reducir el error cuadrático medio 
(ECM), pues se relaciona con el sesgo y la eficiencia. Sobre el ECM, véase el apéndice estadístico (apéndice 
A). También consulte el ejercicio 13.6. 
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número de parámetros estimados). Ahora bien, si añadimos variables al modelo, por lo general la 
SCR decrece (recuerde que mientras más variables se añadan al modelo, más se incrementa R?), 
pero los grados de libertad también disminuyen porque se estiman más parámetros. El resultado 
global depende de que la SCR decrezca lo suficiente para compensar la pérdida de grados de 
libertad debido a la incorporación de regresoras. Es muy probable que si una regresora tiene un 
gran impacto sobre la regresada —por ejemplo, puede reducir la SCR en mayor medida de lo que 
significa la pérdida de grados de libertad como resultado de incorporarse al modelo—, la inclu- 
sión de tales variables no sólo reduce el sesgo, sino que también aumenta la precisión (es decir, 
disminuye los errores estándar) de los estimadores. 

Por otra parte, si las variables relevantes sólo tienen un efecto marginal en la regresada, y si 
están muy correlacionadas (es decir, el FIV es mayor), se puede reducir el sesgo en los coeficien- 
tes de las variables ya incluidas en el modelo, pero aumentarían sus errores estándar (es decir, se 
harían menos eficientes). De hecho, la disyuntiva entre mejor precisión o menos sesgo, en esta 
situación, puede ser sustancial. Como se desprende del análisis, la decisión depende de la impor- 
tancia relativa de las diversas regresoras. 

Para concluir, consideremos ahora el caso especial en donde r23 = 0, es decir, X2 y X3 no están 
correlacionadas. En este caso, b32 es cero (¿por qué?). Por consiguiente, se ve, de (13.3.3), que 
â es ahora insesgada.!! También, de (13.3.4) y (13.3.5) parece que las varianzas de âz y $, son 
las mismas. ¿No hay perjuicio entonces en eliminar la variable X; del modelo aunque pueda ser 
relevante en teoría? La respuesta suele ser negativa, pues, en este caso, como ya indicamos, la 
var(&2) estimada de (13.3.4) es aún sesgada y, por consiguiente, es probable que los procedi- 
mientos de pruebas de hipótesis continúen siendo dudosos.!? Además, en la mayoría de investi- 
gaciones económicas es probable que X> y X; estén correlacionadas, lo que crea los problemas 
mencionados. El punto es muy claro: una vez formulado el modelo con base en la teoría 
pertinente, no se aconseja eliminar una variable de dicho modelo. 


Inclusión de una variable irrelevante (sobreajuste de un modelo) 
Ahora supongamos que 


Y; = pı + B2X2 + ui (13.3.6) 
es verdadero, pero especificamos el siguiente modelo: 
Y; = Q1 + 0X); + 03X53; + Y; (13.3.7) 


y cometemos así el error de especificación al incluir una variable innecesaria en el modelo. 
Las consecuencias de este error de especificación son las siguientes: 


1. Todos los estimadores de MCO de los parámetros del modelo “incorrecto” son insesgados 
y consistentes, es decir, E(œ1) = 61, E(&2) = Ba y E(03)= B3 = 0. 
2. La varianza del error 0? está correctamente estimada. 


3. Los procedimientos usuales de intervalos de confianza y de pruebas de hipótesis conservan 
su validez. 


4. Sin embargo, las œ estimadas por lo general serán ineficientes, es decir, sus varianzas ge- 
neralmente serán más grandes que las de las Ê del verdadero modelo. Las pruebas de algunas de 
estas afirmaciones se encuentran en el apéndice 13A, sección 13A.2. El punto de interés aquí es 
la ineficiencia relativa de las &. Esto se demuestra fácilmente. 


11 Observe, sin embargo, que â; es aún sesgado, lo cual se ve intuitivamente de la siguiente manera: 
sabemos que Bi = = Y — ĝ2 X2 — B3X3, mientras que 1 = Y — â2X92, y aunque åz = B2, los dos estimadores 
no serán iguales. 

12 Para mayores detalles, véase Adrian C. Darnell, A Dictionary of Econometrics, Edward Elgar Publisher, 1994, 
pp. 371-372. 
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De la fórmula usual de MCO sabemos que 


y? 


var ($2) = 53 (13.3.8) 
y 
2 
var (0%) = a (13.3.9) 
al = 135) 
Por consiguiente, 
ol 1 
aa e (13.3.10) 


var(Ê)  1-r2; 


Como 0 < K3 < 1, se cumple que var(å2) > var(B2), es decir, la varianza de ú suele ser más 
grande que la varianza de $, aunque, en promedio, %, = f2 [es decir, E(&2) = Ba]. 

La implicación de este hallazgo es que la inclusión de la variable innecesaria X; hace que la 
varianza de (y, sea más grande de lo necesario, con lo cual å; se hace menos precisa. Esto también 
es cierto con ĝ4. 

Observe la asimetría en los dos tipos de sesgos de especificación que consideramos. Si ex- 
cluimos una variable relevante, los coeficientes de las variables consideradas en el modelo son 
por lo general sesgados e inconsistentes, la varianza del error es incorrectamente estimada y 
se invalidan los procedimientos usuales de pruebas de hipótesis. Por otra parte, la inclusión de 
una variable irrelevante en el modelo proporciona estimaciones insesgadas y consistentes de los 
coeficientes en el modelo verdadero, la varianza del error es correctamente estimada y los mé- 
todos convencionales de pruebas de hipótesis son aún válidos; la única penalización por la in- 
clusión de la variable superflua es que las varianzas estimadas de los coeficientes son mayores 
y, como resultado, las inferencias probabilísticas sobre los parámetros son menos precisas. Una 
conclusión no deseada aquí sería que es mejor incluir variables irrelevantes que omitir variables 
relevantes. Pero esta filosofía no es estricta, pues incluir variables innecesarias genera una pér- 
dida de eficiencia de los estimadores y puede provocar también el problema de multicolinealidad 
(¿por qué?), para no mencionar la pérdida de grados de libertad. Por consiguiente, 


En general, el mejor enfoque es incluir sólo las variables explicativas que, en teoría, influyan directa- 
mente en la variable dependiente y no se hayan tomado en cuenta en otras variables incluidas.!* 


13.4 Pruebas de errores de especificación 


Conocer las consecuencias de los errores de especificación es una cosa, pero averiguar si se 
cometieron tales errores es otra muy diferente, pues en la especificación no se espera delibe- 
radamente cometer estos errores. Con mucha frecuencia, los sesgos de especificación surgen 
en forma inadvertida, quizá por la incapacidad de formular el modelo en la forma más precisa 
posible debido a que la teoría es débil o a que no se tiene la clase de información adecuada 
para probar el modelo. Como observa Davidson: “Debido a la naturaleza no experimental de 
la economía, nunca estamos seguros de la forma en que se generaron los datos observados. En 
economía, resulta que la prueba de cualquier hipótesis siempre depende de supuestos adicionales 
necesarios para especificar un modelo razonablemente ambicioso, los cuales pueden o no estar 


justificados”.!* 


13 Michael D. Intriligator, Econometric Models, Techniques and Applications, Prentice-Hall, Englewood Cliffs, 
Nueva Jersey, 1978, p. 189. Recuerde el principio de la navaja de Occam. 


14 James Davidson, Econometric Theory, Blackwell Publishers, Oxford, Inglaterra, 2000, p. 153. 
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La pregunta práctica no es por qué se cometen tales errores, pues por lo general los hay, 
sino cómo detectarlos. Una vez que se encuentran errores de especificación, con frecuencia los 
remedios surgen por sí mismos. Si, por ejemplo, puede demostrarse que una variable se omitió 
inapropiadamente de un modelo, el remedio obvio es incluirla en el análisis, suponiendo que, 
desde luego, se tenga información disponible sobre ella. 

En esta sección analizamos algunas pruebas para detectar errores de especificación. 


Detección de variables innecesarias 
(sobreajuste de un modelo) 
Suponga que desarrollamos un modelo de k variables para explicar un fenómeno: 


Y; = pi + b2Xzi +-+- + Bi + ui (13.4.1) 


Sin embargo, no tenemos una certeza total de que, por ejemplo, la variable X, debe estar en el 
modelo. Una forma sencilla de averiguarlo es probar la significancia del $; estimado mediante la 
prueba f usual: t = Br /ee( Bi). Pero suponga que no hay seguridad de que X; y X4 pertenezcan en 
realidad al modelo. Esto se consigue fácilmente mediante la prueba F estudiada en el capítulo 8. 
Así, la detección de una o más variables irrelevantes no es difícil. 

Pero es muy importante recordar que, con estas pruebas de significancia, tenemos en mente 
un modelo específico. Aceptamos ese modelo como hipótesis mantenida o “verdad”, sin impor- 
tar lo tentativa que pueda ser. Así, con ese modelo, mediante las pruebas usuales t o F podemos 
averiguar la relevancia verdadera de una o más regresoras. Pero observe con cuidado que con las 
pruebas t y F no podemos construir un modelo en forma iterativa, es decir, no podemos decir que 
al principio Y está relacionada con X sólo porque Êz es estadísticamente significativa, ampliar 
luego el modelo para incluir X; y luego conservar esa variable en el modelo si $3 resulta ser es- 
tadísticamente significativo, y así sucesivamente. Esta estrategia de elaborar un modelo se llama 
método ascendente (se empieza con un modelo más pequeño y se amplía conforme se prosigue) 
o, un término más descriptivo: minería de datos (otros nombres son regresión al tanteo, extrac- 
ción de datos, sondeo de datos y procesamiento masivo de datos numéricos). 

El objetivo principal de la minería de datos es desarrollar el “mejor” modelo después de varias 
pruebas de diagnóstico, de manera que el modelo final resulte “bueno” en el sentido de que todos 
los coeficientes estimados tengan los signos “correctos”, sean estadísticamente significativos de 
acuerdo con las pruebas 1 y F, el valor R? resulte razonablemente alto y el d de Durbin-Watson 
tenga un valor aceptable (alrededor de 2), etc. Los puristas menosprecian la práctica de la minería 
de datos. En palabras de William Pool, “. . . siempre resulta arriesgado hacer de una regularidad 
empírica el fundamento, en vez de tomar como base una implicación de la teoría económica”.!* 
En seguida daremos una razón para “condenar” la minería de datos. 


Nivel de significancia nominal frente a nivel de significancia verdadero 

en presencia de minería de datos 

Un peligro de la minería de datos al cual se enfrenta el investigador desprevenido es que los 
niveles convencionales de significancia (œ) como 1, 5 o 10% no son los verdaderos niveles de 
significancia. Lovell sugirió que, si hay c candidatas regresoras de las cuales k son finalmente 
seleccionadas (k < c) con base en la minería de datos, el verdadero nivel de significancia (a) se 
relaciona con el nivel de significancia nominal (œ) de la siguiente manera: !% 


a*=1-(1-a)/* (13.4.2) 


15 William Pool, “Is Inflation Too Low?”, Cato Journal, vol. 18, núm. 3, invierno de 1999, p. 456. 
16 M. Lovell, “Data Mining”, Review of Economics and Statistics, vol. 65, 1983, pp. 1-12. 
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o aproximadamente como 
a? = (c/k)a (13.4.3) 


Por ejemplo, si c = 15, k = 5 y œ = 5%, mediante (13.4.3), el verdadero nivel de significancia es 
(15/5)(5) = 15%. Por consiguiente, si un investigador extrae datos, selecciona 5 de 15 regreso- 
ras y sólo informa los resultados en el nivel de significancia de 5% nominal, y declara que estos 
resultados son estadísticamente significativos, esta conclusión se debe tomar con gran reserva; 
hasta donde sabemos, el (verdadero) nivel de significancia es en realidad 15%. Debe observarse 
que si c = k, es decir, si no se ha hecho minería de datos, los niveles de significancia verdadero 
y nominal son iguales. Por supuesto, en la práctica la mayoría de los investigadores sólo informa 
los resultados de su regresión “final” sin reconocer que llegaron a los resultados tras una consi- 
derable minería de datos, o preprueba.!” 

Aparte de algunas desventajas evidentes, cada vez se reconoce más, sobre todo los econome- 
tristas aplicados, que el método purista (es decir, el que no realiza minería de datos) para elaborar 
modelos no es defendible. Como expresa Zaman: 


Por desgracia, la experiencia con los conjuntos de datos reales muestra que tal enfoque [el purista] 
no es factible ni deseable. No es factible porque es una teoría económica extraña que conduce a un 
modelo único. No es deseable porque un aspecto crucial del aprendizaje mediante los datos es cono- 
cer los tipos de modelos que los datos apoyan o rechazan. Aunque, por una extraña suerte, el modelo 
inicial mostrase un buen ajuste, con frecuencia resultará importante explorar y conocer las clases de 
modelos con que los datos concuerdan o no.'* 


Kerry Patterson expresa un punto de vista similar: 


Este enfoque [el de minería de datos] indica que la teoría económica y la especificación empírica 
interactúan en vez de mantenerse en compartimentos separados.!” 


En lugar de enredarse con la disyuntiva entre la minería de datos y el enfoque purista para la 
elaboración de modelos, uno puede inclinarse por la posición de Peter Kennedy: 


[la especificación de modelos] necesitaría ser una combinación bien pensada de teoría y datos; asi- 
mismo, los procedimientos de prueba para la búsqueda de especificaciones deben estar diseñados 
para reducir los costos de la minería de datos. Ejemplos de dichos procedimientos son: dejar de lado 
datos para las pruebas de predicción fuera de las muestras, ajustar los niveles de significancia [a la 
Lovell] y evitar criterios cuestionables, como maximizar R?.2% 


Si consideramos la minería de datos desde una perspectiva más amplia, como un proceso de 
descubrimiento de regularidades empíricas que sugiriese errores y/u omisiones en los modelos 
teóricos (existentes), quizá desempeñara un papel muy útil. Para citar de nueva cuenta a Kennedy, 
“El arte del econometrista aplicado consiste en permitir que la teoría se deje conducir por los 


datos y al mismo tiempo evite los enormes daños que implica la minería de datos”.?! 


17 Hay un análisis detallado de lo que pueden provocar las prepruebas y los sesgos en T.D. Wallace, “Pretest 
Estimation in Regression: A Survey”, American Journal of Agricultural Economics, vol. 59, 1977, pp. 431-443. 


18 Asad Zaman, Statistical Foundations for Econometric Techniques, Academic Press, Nueva York, 1996, p. 226. 
19 Kerry Patterson, An Introduction to Applied Econometrics, St. Martin's Press, Nueva York, 2000, p. 10. 


20 Peter Kennedy, “Sinning in the Basement: What Are the Rules? The Ten Commandments of Applied 
Econometrics”, manuscrito inédito. 


21 Kennedy, op. cit., p. 13. 
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Pruebas para variables omitidas y forma funcional incorrecta 


En la práctica, nunca estamos seguros de que el modelo adoptado para pruebas empíricas repre- 
sente “la verdad, toda la verdad y nada más que la verdad”. Con base en la teoría o en la intros- 
pección y en el trabajo empírico previo, desarrollamos un modelo que se cree recoge la esencia 
del tema en estudio. Luego sometemos el modelo a una prueba empírica. Después de obtener 
los resultados, iniciamos el post mortem, teniendo en mente los criterios ya estudiados de un 
buen modelo. Es en esta etapa cuando nos enteramos si el modelo seleccionado es adecuado. Al 
determinar la bondad de ajuste del modelo se observan algunas características generales de los 
resultados, como el valor R?, las razones f estimadas, los signos de los coeficientes estimados en 
relación con sus expectativas previas, el estadístico de Durbin-Watson, etc. Si estos diagnósticos 
son razonablemente buenos, podemos afirmar que el modelo seleccionado es una buena repre- 
sentación de la realidad. Con el mismo procedimiento, si los resultados no parecen estimulantes 
porque el valor de R? es muy bajo o porque muy pocos coeficientes son estadísticamente signi- 
ficativos o tienen los signos correctos, o porque el d de Durbin-Watson es muy bajo, entonces 
puede empezar a preocupar la bondad del ajuste del modelo y podemos empezar a buscar reme- 
dios: tal vez omitimos una variable importante, utilizamos la forma funcional equivocada o no 
realizamos la primera diferenciación de la serie de tiempo (para eliminar la correlación serial), y 
así sucesivamente. Para determinar si la incompetencia del modelo se debe a uno o más de estos 
problemas están algunos de los siguientes métodos. 


Examen de los residuos 
Como mencionamos en el capítulo 12, el examen de los residuos es un buen diagnóstico visual 
para detectar la autocorrelación o la heteroscedasticidad. Pero estos residuos también se exami- 
nan, en especial en información de corte transversal, para detectar errores de especificación en 
los modelos, como la omisión de una variable importante o la definición de una forma funcional 
incorrecta. Si en realidad existen tales errores, una gráfica de los residuos permite apreciar pa- 
trones distinguibles. 

Para ilustrar lo anterior, reconsidere la función cúbica del costo total de producción analizada 
en el capítulo 7. Suponga que la verdadera función del costo total se describe de la siguiente 
manera, donde Y = costo total y X= producción: 


Y; = Bı + bX; + BX? + b4X} + ui (13.4.4) 
pero un investigador ajusta la siguiente función cuadrática: 
Y; = qı + 2X; + az X? + uhi (13.4.5) 
y otro investigador ajusta la siguiente función lineal: 
Y; == +% + uzi (13.4.6) 


Aunque sabemos que ambos investigadores cometieron errores de especificación, con fines pe- 
dagógicos veamos cómo se comportan los residuos estimados en los tres modelos. (La infor- 
mación costo-producción está en la tabla 7.4.) La figura 13.1 habla por sí misma: a medida que 
nos movemos de izquierda a derecha, es decir, a medida que nos acercamos a la verdad, no sólo 
los residuos son más pequeños (en valor absoluto) sino, asimismo, éstos no presentan los giros 
cíclicos pronunciados asociados con modelos mal especificados. 

La utilidad de examinar la gráfica de residuos es entonces clara: si hay errores de especifica- 
ción, los residuos presentan patrones distinguibles. 


De nuevo, el estadistico d de Durbin- Watson 

Si examinamos el estadístico d de Durbin-Watson que se calcula de manera habitual y aparece en 
la tabla 13.1, vemos que, para la función lineal de costos, el d estimado es 0.716, lo cual indica 
que hay “correlación” positiva en los residuos estimados: para n = 10 y k' = 1, los valores d 
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FIGURA 13.1 
Residuos 11; obtenidos de 
las funciones del costo 
total de tipo a) lineal, 


b) cuadrática y c) cúbica. 


TABLA 13.1 
Residuos estimados de 
las funciones del costo 
total de tipo lineal, 
cuadrático y cúbico 


îi 
6 
3 
30 Par — X 
3 Producción 
pl 
a) b) c) 
Número de ús, ús, ús, 
observación modelo lineal* modelo cuadráticot modelo cúbico** 
1 6.600 23.900 0.222 
2 19.667 9.500 1.607 
3 13.733 18.817 0.915 
4 —2.200 13.050 4.426 
5 9.133 11.200 4.435 
6 —26.067 5.733 1.032 
7 —32.000 16.750 0.726 
8 28.933 —23.850 -4.119 
9 4.133 6.033 1.859 
10 54.200 23.700 0.022 
*P,= 166.467 + 19.933X, R? = 0.8409 
(19.021) (3.066) R? = 0.8210 
(8.752) (6.502) d=0.716 
tf, = 222.383 — 8.0250X,+  2.542X? R? = 0.9284 
(23.488) (9.809) (0.869) R? = 0.9079 
(9.468) (—0.818) (2.925) d= 1.038 
**f = 141.767 + 63.478X, — 12.962X? + 0.939X? R? = 0.9983 
(6.375) (4.778) (0.9856) (0.0592) R? = 0.9975 
(22.238) (13.285) (=13.151) (15.861) d=2.70 


críticos a 5% son dz = 0.879 y dy = 1.320. De la misma manera, el valor d calculado para la fun- 
ción cuadrática de costos es 1.038, mientras que los valores críticos a 5% son dz; = 0.697 y dy = 
1.641, lo cual señala indecisión. Pero con la prueba d modificada (véase el capítulo 12) podemos 
decir que hay “correlación” positiva en los residuos, pues el d calculado es menor que dy. Para la 
función cúbica de costo, la verdadera especificación, el valor d estimado no indica “correlación” 
positiva alguna en los residuos.?? 

La “correlación” positiva observada en los residuos cuando ajustamos el modelo lineal o 
cuadrático no es una medida de correlación serial (de primer orden) sino del error (o errores) de 


22 En el contexto presente, un valor d = 2 significa que no hay error de especificación. (¿Por qué?) 
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especificación (del modelo). La correlación observada tan sólo refleja que hay una o más varia- 
bles pertenecientes al modelo incluidas en el término de error y necesitan desecharse de éste e 
introducirse, por derecho propio, como variables explicativas: si excluimos X? de la función de 
costos, entonces, como lo muestra (13.2.3), el término de error en el modelo mal especificado 
(13.2.2) es en realidad (u1; + B4X), el cual presenta un patrón sistemático (por ejemplo, de 
autocorrelación positiva) si en realidad X? afecta a Y significativamente. 

Para aplicar la prueba de Durbin-Watson para detectar error (o errores) de especificación de 
un modelo, procedemos de la siguiente manera: 


1. A partir de un modelo supuesto, obtenga los residuos de MCO. 


2. Si se cree que el modelo supuesto está mal especificado porque excluye una variable ex- 
plicativa relevante, por ejemplo, Z, ordene los residuos obtenidos en el paso 1 de acuerdo con 
los valores crecientes de Z. Nota: La variable Z puede ser una de las variables X incluidas en el 
modelo supuesto o algún tipo de función de esa variable, como X? o XP. 


3. Calcule el estadístico d a partir de los residuos así ordenados mediante la fórmula d usual, 
a saber, 


Nota: En este contexto, el subíndice f es el índice de la observación que no necesariamente se 
refiere a una serie de tiempo. 


4. Con base en las tablas de Durbin-Watson, si el valor d estimado es significativo, se puede 
aceptar la hipótesis de mala especificación del modelo. Si es así, las medidas correctivas surgen 
naturalmente por sí mismas. 


En el ejemplo de costos, la variable Z( = X) (producción) ya fue ordenada.? Por consiguiente, 
no es preciso calcular otra vez el estadístico d. Como vimos, el estadístico d para las funciones 
de costos lineal y cuadrática indica la presencia de errores de especificación. Los remedios son 
claros: introduzca los términos cuadrático y cúbico en la función lineal de costos y el término 
cúbico en la función cuadrática de costos. En resumen, efectúe la regresión del modelo cúbico 
de costos. 


Prueba RESET de Ramsey 


Ramsey propuso una prueba general de errores de especificación conocida como RESET (prueba 
del error de especificación en regresión).?* Aquí sólo ilustraremos la versión más sencilla de la 
prueba. Para establecer los conceptos, continuaremos con el ejemplo costo-producción y supon- 
dremos que la función de costos es lineal en la producción de la siguiente forma: 


Y; = à +44 + Uzi (13.4.6) 


donde Y = costo total y X= producción. Ahora, si graficamos los residuos û; obtenidos de esta 
regresión frente a Y;, la estimación de Y; de este modelo, obtenemos la gráfica de la figura 13.2. 
Aunque > ù; y » û; Y, necesariamente son cero (¿por qué?, véase el capítulo 3), los residuos en 
esta figura muestran un patrón en el cual su media cambia sistemáticamente con Y;. Esto indicaría 
que si introdujéramos Y, en alguna forma como regresora(s) en (13.4.6), debería incrementar R?. 
Y si el incremento en R? es estadísticamente significativo (con base en la prueba F analizada en 


23 No importa si se ordena û; de acuerdo con X?o con X3, pues son funciones de X;, la cual ya se ordenó. 


24]. B. Ramsey, “Tests for Specification Errors in Classical Linear Least Squares Regression Analysis”, Journal of 
the Royal Statistical Society, serie B, vol. 31, 1969, pp. 350-371. 
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FIGURA 13.2 
Residuos ĉ; y Y 
estimados de la función 
lineal de costos: 

Y; = à1 + 124 + ui. 


el capítulo 8), esto sugeriría que la función lineal de costos (13.4.6) estaba mal especificada. Esta 
es la idea esencial de la prueba RESET. Los pasos de RESET son los siguientes: 


1. A partir del modelo seleccionado, por ejemplo, el (13.4.6), obtenga Y; estimada, es decir, A 

2. Efectúe de nuevo la regresión (13.4.6) introduciendo Y, en alguna forma, como una o va- 
rias regresoras adicionales. En la figura 13.2, observamos una relación curvilínea entre ù; y Y;, 
que indica que se pueden introducir Y? y Y? como regresoras adicionales. Así, efectuamos la 
regresión 


Y, = i + BX; + bsf? + baf? +u; (13.4.7) 


3. Sea R? obtenida de (13.4.7) R? eva y la obtenida de (13.4.6), R?..... Entonces utilizamos la 


vieja’ 
prueba F introducida ya en (8.4.18), a saber, 


(RZ uova — Reja) /número de regresoras nuevas 
F= ci à (8.4.18) 
(1 — RZ aeva) / (7n — número de parámetros en el nuevo modelo) 


para averiguar si el incremento en R?, con (13.4.7), es estadísticamente significativo. 


4. Si el valor F calculado es significativo, por ejemplo, en el nivel de 5%, podemos aceptar la 
hipótesis de que el modelo (13.4.6) está mal especificado. 


De regreso en el ejemplo ilustrativo, tenemos los siguientes resultados (los errores estándar 
están entre paréntesis): 


Y, = 166.467 + 19.933X, 
(19.021) (3.066) 


(13.4.8) 
R? = 0.8409 
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Y, = 2 140.7223 + 476.6557X,— 0.09187? + 0.000119Y? 
(132.0044) (33.3951) (0.00620)  (0.0000074) (13.4.9) 
R? = 0.9983 


Nota: Y? y Y? en (13.4.9) se obtienen de (13.4.8). 
Ahora, al aplicar la prueba F, tenemos que 


(0.9983 — 0.8409)/2 
(1 — 0.9983)/(10 — 4) (13.4.10) 
= 284.4035 


El lector puede verificar fácilmente que este valor F es muy significativo, lo cual indica que 
el modelo (13.4.8) está mal especificado. Por supuesto, llegamos a la misma conclusión con el 
examen visual de los residuos como también con el valor d de Durbin-Watson. Debe añadirse 
que, en vista de que Y, es estimada, se trata de una variable aleatoria y, por tanto, las pruebas de 
significancia habituales aplican si la muestra es razonablemente grande. 

Una ventaja de RESET es que es fácil de aplicar, pues no requiere la especificación del mo- 
delo alterno. Sin embargo, ésta también es su desventaja, pues saber que el modelo está mal 
especificado no necesariamente ayuda a elegir una opción mejor. 

Como apunta un autor: 


En la práctica, la prueba RESET puede no ser particularmente buena para detectar algguna alterna- 
tiva específica para un modelo propuesto, y su utilidad radica en que sirve como indicador general 
de que algo está mal. Por esta razón, una prueba como RESET se describe en ocasiones como una 
prueba de especificación incorrecta en lugar de una prueba de especificación. Esta distinción es muy 
sutil, pero la idea básica es que una prueba de especificación examina algún aspecto particular de una 
ecuación dada, teniendo en mente hipótesis claras nula y alternativa. Una prueba de especificación 
incorrecta, por otra parte, puede detectar varias opciones e indica que algo está mal según la hipótesis 
nula, sin ofrecer necesariamente guía clara en cuanto a la hipótesis alterna apropiada.?* 


Prueba del multiplicador de Lagrange (ML) para agregar variables 
Ésta es una alternativa para la prueba RESET de Ramsey. Para explicar esta prueba, continuare- 
mos con el ejemplo ilustrativo anterior. 

Si comparamos la función lineal de costos (13.4.6) con la función cúbica de costos (13.4.4), 
la primera es una versión restringida de la última (recuerde el análisis de mínimos cuadrados 
restringidos, del capítulo 8). La regresión restringida (13.4.6) supone que los coeficientes de los 
términos de producción elevados al cuadrado y al cubo son iguales a cero. Para probar esto, la 
prueba ML se realiza de la siguiente manera: 


1. Estime la regresión restringida (13.4.6) mediante MCO y obtenga los residuos, 1;. 


2. Si la regresión no restringida (13.4.4) resulta ser la verdadera regresión, los residuos obte- 
nidos en (13.4.6) deben estar relacionados con los términos de la producción elevada al cuadrado 
y al cubo, es decir, X? y X?. 


3. Esto indica que se efectúe la regresión de los 4; obtenidos en el paso 1 sobre todas las re- 
gresoras (incluidas las de la regresión restringida), lo cual, en el presente caso, significa que 


0=0+0X + 03X? + 04X? + vi (13.4.11) 


donde v es un término de error con las propiedades usuales. 


25 Jon Stewart y Len Gill, Econometrics, 2a. ed., Prentice-Hall Europe, 1998, p. 69. 
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4. Para un tamaño de muestra grande, Engle demostró que n (el tamaño de la muestra) multi- 
plicado por R? estimado en la regresión (auxiliar) (13.4.11) sigue una distribución ji cuadrada con 
gl iguales al número de restricciones impuestas por la regresión restringida, dos en el ejemplo 
presente, pues los términos X? y X? son eliminados del modelo.’ Simbólicamente, escribimos 


nR? ~ 


asin 


(13.4.12) 


2 
X (número de restricciones) 


donde asin significa asintóticamente, es decir, en muestras grandes. 


5. Si el valor ji cuadrada obtenido de (13.4.12) excede el valor ji cuadrada crítico en el nivel 
de significancia seleccionado, rechazamos la regresión restringida. De lo contrario, no la recha- 
zamos. 


Para el ejemplo, los resultados de la regresión son los siguientes: 
Y, = 166.467 + 19.333 X; (13.4.13) 


donde Y es el costo total y X es la producción. Los errores estándar para esta regresión ya están 
en la tabla 13.1. 

Cuando se hace la regresión con los residuos de (13.4.13), como se acaba de sugerir en el paso 
3, obtenemos los siguientes resultados: 


ñi =— 24.7 + 43.5443X; — 12.9615X? + 0.9396X? 
ee= (6.375) (4.779) (0.986) (0.059) (13.4.14) 
R? = 0.9896 


Aunque el tamaño de la muestra es de 10, es decir, no es grande, sólo para ilustrar el mecanismo 
ML, obtenemos nR? = (10)(0.9896) = 9.896. De la tabla ji cuadrada observamos que, para 2 gl, 
el valor ji cuadrada crítico a 1% es alrededor de 9.21. Por consiguiente, el valor observado de 
9.896 es significativo en el nivel de 1% y la conclusión sería rechazar la regresión restringida 
(es decir, la función lineal de costos). Con base en la prueba RESET de Ramsey llegamos a una 
conclusión similar. 


13.5 Errores de medición 


Todo el tiempo hemos supuesto implícitamente que las mediciones de la variable dependiente 
Y y de las variables explicativas, las X, se realizan sin error. Así, en la regresión del gasto de 
consumo sobre el ingreso y la riqueza de las unidades familiares suponemos que la información 
sobre estas variables es “precisa”; que no se trata de estimaciones supuestas, extrapolaciones, 
interpolaciones o aproximaciones realizadas en forma sistemática, como la aproximación a la 
centésima de dólar más cercana y así sucesivamente. Por desgracia, este ideal no se cumple en 
la práctica por diversas razones, como errores de no respuesta, en los informes y de computación. 
Cualesquiera que sean las razones, el error de medición es un problema en potencia complicado, 
pues constituye aún otro ejemplo de sesgo de especificación con las consecuencias que veremos 
en seguida. 


Errores de medición en la variable dependiente Y 
Considere el siguiente modelo: 


Y* =o + pX; +u; (13.5.1) 


26 R.F. Engle, “A General Approach to Lagrangian Multiplier Model Diagnostics”, Journal of Econometrics, vol. 
20, 1982, pp. 83-104. 
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donde Y* = gasto de consumo permanente?” 
X; = ingreso actual 
u; = término de perturbación estocástico 


Como Y* no puede medirse directamente, podemos utilizar una variable de gasto observable Y; 
tal que 


Y, =Y+8 (13.5.2) 


donde e; denota los errores de medición en Y. Por consiguiente, en lugar de estimar (13.5.1), 
estimamos 


Y, = (œ + Xi + ui) + £i 
=0+ BX; + (u; + £i) (13.5.3) 
=0 +BX; + vi 


donde v; = u; + e; es un término de error compuesto, que contiene el término de perturbación 
poblacional (el cual puede llamarse término de error ecuacional) y el término de error de me- 
dición. 

Por simplicidad, suponga que E(u;) = E(e;) = 0, cov(X;, ui) = 0 (el supuesto de la regresión 
lineal clásica) y la cov(X;, £;) = 0; es decir, los errores de medición en Y* no están correlacionados 
con X; y la cov(u;, £i) = 0; es decir, el error ecuacional y el error de medición no están correla- 
cionados. Con estos supuestos, vemos que la 8 estimada de (13.5.1) o (13.5.3) será un estimador 
insesgado de la verdadera £ (véase el ejercicio 13.7); es decir, los errores de medición en la 
variable dependiente Y no destruyen la propiedad de insesgamiento de los estimadores de MCO. 
Sin embargo, las varianzas y los errores estándar de la £ estimada de (13.5.1) y (13.5.3) serán 
diferentes porque, con las fórmulas usuales (véase el capítulo 3), obtenemos 


2 
O, 


Modelo (13.5.1): var (Ê) = Sa 


(13.5.4) 


2 
Modelo (13.5.3): var (Ê) = E 
o +o? 


o Dx 


Obviamente, la última varianza es más grande que la primera.? Por tanto, aunque los errores 
de medición en la variable dependiente aún producen estimaciones insesgadas de los pará- 
metros y de sus varianzas, las varianzas estimadas ahora son más grandes que cuando no 
existen tales errores de medición. 


(13.5.5) 


Errores de medición en la variable explicativa X 
Suponga ahora que, en lugar de (13.5.1), tenemos el siguiente modelo: 


Y, =œ + Xf + ui (13.5.6) 


donde Y; = gasto de consumo actual 
X* = ingreso permanente 
ui = término de perturbación (error ecuacional) 


27 Esta frase se atribuye a Milton Friedman. Véase también el ejercicio 13.8. 

28 Sin embargo, observe que esta varianza es aún insesgada porque, en las condiciones establecidas, el tér- 
mino de error compuesto v; = u; + £; aún satisface los supuestos en los cuales se basa el método de mínimos 
cuadrados. 
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Suponga que en lugar de X?, observamos 
X; =X + wi (13.5.7) 


donde w; representa los errores de medición en X*. Por consiguiente, en lugar de estimar (13.5.6), 
estimamos 


Y, =0 + B(X; — wi) + ui 
=0 + BX; + (ui — pwi) (13.5.8) 
=q + Xi + zi 


donde z; = u; — fBw;, una composición de errores ecuacional y de medición. 

Ahora bien, aunque supongamos que w; tiene media cero, es serialmente independiente y no 
está correlacionado con u;, no podemos suponer todavía que el término de error compuesto z; es 
independiente de la variable explicativa X; porque [suponiendo que £ [z;] = 0] 


cov (zi, Xi) = Elz; — E(2;)][4; — E(4;)] 


= E(u; — Bw;)0w;) con (13.5.7) 
= E(—fw;) (13.5.9) 
=> Bo; 


Así, la variable explicativa y el término de error en (13.5.8) están correlacionados, lo cual viola 
el supuesto básico del modelo clásico de regresión lineal de que la variable explicativa no está 
correlacionada con el término de perturbación estocástico. Si se viola este supuesto, puede de- 
mostrarse que los estimadores de MCO no solamente están sesgados, sino que son también 
inconsistentes, es decir, permanecen sesgados aunque el tamaño de la muestra, n, aumente in- 


definidamente.? 
Para el modelo (13.5.8), se demuestra en el apéndice 13A, sección 13A.3, que 


A 1 
lí = — > 13.5.10 
plimĝ = 6 | 7 ( ) 


2 y 0%. son las varianzas de w; y de X*, respectivamente, y donde plimf significa el 
límite en probabilidad de £. 

Como se espera que el término entre corchetes sea menor que 1 (¿por qué?), (13.5.10) indica 
que, aunque el tamaño de la muestra aumente indefinidamente, Ê no convergirá hacia 6. De 
hecho, si se supone que £ es positivo, B subestimará a £, es decir, es sesgado hacia cero. Por 
supuesto, si no hay errores de medición en X (es decir, 0? = 0), Ê servirá como estimador con- 
sistente de £. 

Por tanto, los errores de medición constituyen un grave problema cuando están presentes en 
la(s) variable(s) explicativa(s) porque su presencia hace imposible la estimación consistente de los 
parámetros. Por supuesto, como vimos, si éstos están presentes sólo en la variable dependiente, 
los estimadores permanecen insesgados y, por ende, son por igual consistentes. Si los errores de 
medición están presentes en las variables explicativas, ¿cuál es la solución? La respuesta no es 
fácil. En un extremo, podemos suponer que si 0? es pequeña comparada con oł., para todos los 
fines prácticos podemos suponer “que no existe” el problema y proceder con la estimación usual 


donde o? 


29 Como se demuestra en el apéndice A, $ es un estimador consistente de £ pues, a medida que n au- 
menta indefinidamente, la distribución muestral de Ê tenderá al verdadero £. En términos técnicos, esto se 
plantea así: plim,,__ „Ê = $. Como se anota en el apéndice A, la consistencia es una propiedad de muestras 
grandes y a menudo se utiliza para estudiar el comportamiento de un estimador cuando no pueden deter- 
minarse sus propiedades finitas o de muestras pequeñas (por ejemplo, insesgamiento). 
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por MCO. Desde luego, el tropiezo aquí es que no es posible observar o medir 0? ni o2, fácil- 
mente, y por consiguiente, no hay forma de juzgar sus magnitudes relativas. 

Otro remedio sugerido son las variables instrumentales o representantes (proxy) que, aun- 
que están muy correlacionadas con las variables X originales, no están correlacionadas con los 
términos de error ecuacional y de medición (es decir, u; y w;). Si es posible encontrar tales varia- 
bles representantes, también lo es obtener una estimación consistente de $. Pero es mucho más 
fácil hablar sobre esta labor que hacerla. En la práctica, no es fácil encontrar buenas variables 
representantes; con frecuencia estamos en una situación de inconformidad sobre el mal clima 
sin ser capaces de hacer mucho al respecto. Además, no es fácil saber si la variable instrumental 
seleccionada es en realidad independiente de los términos de error u; y wi. 

En la teoría hay otras sugerencias para resolver el problema.*% Pero la mayoría es específica 
de cada situación y sus supuestos son restrictivos. En realidad no hay respuesta satisfactoria al 
problema de los errores de medición. Por esto es tan crucial que la medición de los datos sea lo 
más precisa posible. 


EJEMPLO 13.2 
Un ejemplo 


TABLA 13.2 
Información hipotética 
sobre Y* (verdadero 
gasto de consumo), 

X* (verdadero ingre- 
so), Y (gasto de consu- 
mo medido) y X 
(ingreso medido). 
Todas las cifras están 
en dólares 


Concluimos esta sección con un ejemplo construido para resaltar los puntos anteriores. 

La tabla 13.2 proporciona información hipotética sobre el gasto de consumo verdadero Y*, 
el ingreso verdadero X*, el consumo medido Y y el ingreso medido X. La tabla también explica 
la forma como se midieron estas variables.3! 


Errores de medición sólo en la variable dependiente Y. Con base en esta información, la 
verdadera función de consumo es 


Ý = 25.00 + 0.6000X* 
(10.477) (0.0584) 


(13.5.11) 
t= (2.3861) (10.276) 
R2 = 0.9296 
vi Xi Y X e w u 
75.4666 80.00 67.6011 80.0940 —7.8655 0.0940 2.4666 
74.9801 100.00 75.4438 91.5721 0.4636 —8.4279 —10.0199 
102.8242 120.00 109.6956 112.1406 6.8714 2.1406 5.8242 


125.7651 140.00 129.4159 145.5969 3.6509 5.5969 16.7651 
106.5035 160.00 104.2388 168.5579 2.2647 8.5579 —14.4965 


131.4318 180.00 125.8319 171.4793 5.5999 8.5207 1.5682 
149.3693 200.00 153.9926  203.5366 4.6233 3.5366 4.3693 
143.8628 220.00 152.9208 — 222.8533 9.0579 218583 —13.1372 
177.5218 240.00 176.3344 232.9879 —1.1874 —7.0120 8.5218 
182.2748 260.00 174.5252 261.1813 —7.7496 1.1813 1.2748 
Nota: Se supone que los datos sobre X* están dados. En la derivación de las demás variables, los supuestos fueron los siguientes: 
1) E(u;) = Ele¡) = E(w;) = 0; 2) cov (X, u) = cov (X, £) = cov (u, e) = cov (w, u) = cov (£, w) = 0; 3) o? = 100, o2 = 36, y oz = 36; 
y4) Y¥ =25 + 0.6X*¥ + uj, Y; = Y* + ci y X = X7 + wi 

(continúa) 


30 Véase Thomas B. Fomby, R. Carter Hill y Stanley R. Johnson, Advanced Econometric Methods, Springer-Ver- 
lag, Nueva York, 1984, pp. 273-277. Véase también Kennedy, op. cit., pp. 138-140, para un análisis sobre 
regresión ponderada y variables instrumentales. También G.S. Maddala, Introduction to Econometrics, 3a. ed., 
John Wiley & Sons, Nueva York, 2001, pp. 437-462, y Quirino Paris, “Robust Estimators of Errors-in-Variables 
Models: Part I”, documento de trabajo núm. 04-007, 200, Departamento de Economía Agrícola y de Recur- 
sos, Universidad de California en Davis, agosto de 2004. 

31 El autor agradece a Kenneth J. White la elaboración de este ejemplo. Véase su Computer Handbook Using 
SHAZAM, para utilizarse con Damodar Gujarati, Basic Econometrics, septiembre de 1985, pp. 117-121. 
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EJEMPLO 13.2 


(continuación) 


mientras que si utilizamos Y; en lugar de Y;*, obtenemos 
Y; = 25.00 + 0.6000X; 


(12.218) (0.0681) (13.5.12) 


t= (2.0461) (8.8118) 
R2 = 0.9066 


Como indican estos resultados y de acuerdo con la teoría, los coeficientes estimados continúan 
siendo iguales. El único efecto de los errores de medición en la variable dependiente es que los 
errores estándar estimados de los coeficientes tienden a ser más grandes [véase (13.5.5)], lo cual 
se aprecia con claridad en (13.5.12). A propósito, observe que los coeficientes de regresión en 
(13.5.11) y (13.5.12) son los mismos porque la muestra se generó para cumplir con los supues- 
tos del modelo de errores de medición. 


Errores de medición en X. Sabemos que la regresión verdadera es (13.5.11). Suponga ahora 
que en lugar de Xf utilizamos X;. (Nota: En realidad, Xf pocas veces es observable.) Los resulta- 
dos de la regresión son los siguientes: 


YF= 25.992 + 0.5942X; 


(11.0810) (0.0617) (13.5.13) 


t= (2.3457) (9.6270) 
R? = 0.9205 


Estos resultados están de acuerdo con la teoría: cuando hay errores de medición en la(s) 
variable(s) explicativa(s), los coeficientes estimados están sesgados. Por fortuna, en este ejemplo 
el sesgo es relativamente pequeño; de (13.5.10) es evidente que el sesgo depende de 02/02., 
y en la generación de la información supusimos que o = 36 y oí+= 3 667, con lo que reduji- 
mos el factor de sesgo, alrededor de 0.98% (= 36/3 667). 

Dejamos al lector averiguar lo que sucede cuando hay errores de medición en Y y en X, es 
decir, cuando efectuamos la regresión de Y; sobre X; en lugar de hacerla de Y* sobre X;* (véase 
el ejercicio 13.23). 


13.6 Especificación incorrecta del término de error estocástico 


Un problema común de los investigadores es la especificación del término de error u;, que ingresa 
en el modelo de regresión. Como el término de error no se puede observar de manera directa, 
no hay una forma sencilla de determinar la forma en que ingresa en el modelo. A fin de ver lo 
anterior, considere los modelos de (13.2.8) y (13.2.9). Por simplicidad de la exposición, supusi- 
mos que no hay intercepto en el modelo. Además, supondremos que u; en (13.2.8) es tal que In u; 
satisface los supuestos característicos de MCO. 

Si suponemos que (13.2.8) es el modelo “correcto” pero estimamos (13.2.9), ¿cuáles son 
las consecuencias? En el apéndice 13.A, sección 13A.4, se muestra que si In u; ~ N(0, o°), en- 
tonces 


u; ~ log normal [e”?, 


e” (e° —1)] (13.6.1) 
como resultado: 


E(&) = pe”? (13.6.2) 


donde e es la base del logaritmo natural. 


13.7 Modelos 
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Como se aprecia, & es un estimador sesgado, pues su valor promedio no es igual a la verda- 
dera £. 

Veremos más respecto de la especificación del término de error estocástico en el capítulo 
sobre los modelos de regresión no lineales en los parámetros. 


anidados y no anidados 


Al efectuar la prueba de especificación, es útil diferenciar entre modelos anidados y no anida- 
dos. Para distinguirlos, considere los siguientes modelos: 


Modelo A: Y; = bı + B2Xzi + B3X3 + PaXa¡ + PsX5; + ui 


Modelo B: Y; = bı + BrXo + B3A3; + ui 


Decimos que el modelo B está anidado en el modelo A porque es un caso especial del modelo A: 
si estimamos el modelo A y probamos la hipótesis de que 84 = 5 = 0 y no se rechaza con base 
en la prueba F? el modelo A se reduce al modelo B. Si añadimos la variable X, al modelo B, 
el A se reducirá al B, si 85 es cero; en este caso aplicaremos la prueba ż a la hipótesis de que el 
coeficiente de X; es cero. 

Sin llamarlas de ese modo, las pruebas de error de especificación que acabamos de analizar y 
la prueba F restringida que vimos en el capítulo 8 son en esencia pruebas de hipótesis anidadas. 

Ahora considere los siguientes modelos: 


Modelo C: Y, = æi +097X) + 03X3; + Ui 


Modelo D: Y; = bı + B2Zo; + b3 Z3i + vi 


donde las X y las Z son variables distintas. Decimos que los modelos C y D son no anidados 
porque no puede derivarse uno como caso especial del otro. En economia, como en otras ciencias, 
más de una teoría puede explicar un fenómeno. Por tanto, los monetaristas pueden destacar la 
función del dinero al explicar los cambios del PIB, en tanto que los keynesianos pueden explicar- 
los mediante las variaciones en el gasto gubernamental. 

Debe notarse que se puede permitir que los modelos C y D contengan regresoras comunes a 
ambos. Por ejemplo, X; puede incluirse en D, y Z? en C. Aun así, estos modelos son no anidados, 
pues el modelo C no contiene a Z3, y el modelo D no contiene a X2. 

Aunque se encuentren las mismas variables en el modelo, por la forma funcional pueden ser 
dos modelos no anidados. Por ejemplo, considere el modelo: 


Modelo E: Y; = bı + B21n Zz; + B3 ln Z3i + wi 


Los modelos D y E son no anidados, pues no se puede derivar uno como caso especial del otro. 

Como ya vimos las pruebas de modelos anidados (pruebas t y F), en la siguiente sección ana- 
lizaremos algunas pruebas para los modelos no anidados, antes llamados errores de especifica- 
ción incorrecta del modelo. 


32 De manera más general, es posible utilizar la prueba de la razón de verosimilitud o la de Wald, o bien la 
prueba del multiplicador de Lagrange, que analizamos brevemente en el capítulo 8. 
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13.8 Pruebas de hipótesis no anidadas 


De acuerdo con Harvey, existen dos métodos para probar hipótesis no anidadas: 1) el método 
de discriminación, en donde dados dos o más modelos rivales, uno elige un modelo con base 
en criterios de bondad de ajuste, y 2) el método de discernimiento (en la terminología de este 
texto), en donde al investigar un modelo, se toma en cuenta la información proporcionada por 
otros modelos. Estudiaremos brevemente ambos métodos. 


Método de discriminación 


Considere los modelos C y D anteriores. Como ambos tienen la misma variable dependiente, po- 
demos elegir entre dos (o más) modelos con base en algún criterio de bondad de ajuste, como R? o 
R? ajustada, ya analizado. Pero tenga en cuenta que al comparar dos o más modelos, la regresada 
debe ser la misma. Además de estos criterios, hay otros también comunes. Entre ellos están el 
criterio de información de Akaike (CIA), el criterio de información de Schwarz (CIS) y 
el criterio C, de Mallows. Los estudiaremos en la sección 13.9. El software más moderno de 
estadística contiene uno o más de tales criterios intercalados en sus rutinas de regresión. En la 
última sección de este capítulo ilustraremos los criterios anteriores con un ejemplo ampliado. 
Con base en uno o más de tales criterios seleccionamos finalmente un modelo con la máxima R?, 
o el valor más bajo del CIA o del CIS, etcétera. 


Método de discernimiento 
La prueba F no anidada o la prueba F incluyente 


Considere los modelos C y D presentados en la sección 3.7. ¿Cómo elegir entre ambos modelos? 
Para este propósito, suponga que estimamos el siguiente modelo anidado o híbrido: 


Modelo F: Y; = ài +14 + 4343; + 24Z2; + 45Z3; + ti 


Observe que el modelo F anida o incluye a los modelos C y D. Pero note que C no está anidado 
en D, y que éste no está anidado en C, por lo que no son modelos anidados. 

Ahora bien, si el modelo C es correcto, 44 = A5 = 0, en tanto que D es correcto si A = A3 = 
0. Esta prueba se efectúa mediante la prueba F usual, de aquí que se le conozca como prueba F 
no anidada. 

Sin embargo, surgen problemas con este procedimiento de prueba. En primer lugar, si las 
X y las Z están demasiado correlacionadas, entonces —como vimos en el capítulo de multi- 
colinealidad— es muy probable que una o más de las à sean en lo individual estadísticamente 
insignificantes, aunque con base en la prueba F podamos rechazar la hipótesis de que todos los 
coeficientes de pendientes sean simultáneamente nulos. En este caso, no hay forma de decidir si 
el modelo C o el D es el correcto. En segundo lugar, existe otro problema. Suponga que elegi- 
mos el modelo C como hipótesis de referencia o modelo, y descubrimos que todos sus coeficien- 
tes son significativos. Ahora agregamos Z2 o Z3, o ambas, al modelo y tenemos que, al utilizar 
la prueba F, su contribución incremental a la suma de cuadrados explicada (SCE) es estadística- 
mente insignificante. Por tanto, elegimos el modelo C. 

Pero suponga que elegimos el modelo D como referencia y encontramos que todos sus 
coeficientes son estadísticamente significativos. Pero cuando agregamos X o X3, o ambas, a este 
modelo, de nuevo observamos que, con la prueba F, su contribución incremental a la SCE es 
insignificante. En consecuencia, habríamos elegido el modelo D como el correcto. Por tanto, “la 
elección de la hipótesis de referencia puede determinar el resultado de la elección del modelo”, ?* 
sobre todo si hay una gran multicolinealidad en las regresoras rivales. Por último, el modelo F, 
artificialmente anidado, quizá no tenga ningún significado económico. 


33 Andrew Harvey, The Econometric Analysis of Time Series, 2a. ed., The MIT Press, Cambridge, Massachusetts, 
1990, cap. 5. 


34 Thomas B. Fomby, R. Carter Hill y Stanley R. Johnson, Advanced Econometric Methods, Springer Verlag, 
Nueva York, 1984, p. 416. 
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EJEMPLO 13.3 
Un ejemplo ilustra- 
tivo: El modelo 

St. Louis 


Para determinar si los cambios en el PIB nominal se explican por las variaciones en la oferta de 
dinero (monetarismo) o por los cambios en el gasto gubernamental (keynesianismo), conside- 
ramos los siguientes modelos: 


Yı = a + bo Mi + Br Mir + B2Mi-2 + B3Mi_3 + PaMia + Une 


4 
=0 +) BiMii + Une (13.8.1) 
(01 


Ye = y + ào Ét +1 Éti +A2 Ètz + às 134 da È t4 + Uz 
4 


= Y E Na Eb; + U2t (13.8.2) 
(0) 


donde Y; = tasa de crecimiento en el PIB nominal para el tiempo t 
M; = tasa de crecimiento en la oferta de dinero (versión Mı) en el tiempo t 


E; = tasa de crecimiento con una plena o alta utilización del gasto gubernamental en 
el tiempo t 


Por cierto, observe que (13.8.1) y (13.8.2) son ejemplos de modelos de rezago distribuido, tema 
que analizaremos a profundidad en el capítulo 17. Por el momento, simplemente note que el 
efecto de una unidad de cambio en la oferta de dinero o en el gasto gubernamental sobre el PIB 
se distribuye a lo largo del tiempo y no es instantáneo. 

Como sería difícil, a priori, decidir entre los dos modelos rivales, mezclaremos ambos como 
se muestra a continuación: 


4 4 
Y, = constante + $ 8¡Mi¡ +) Ai Éi + uzt (13.8.3) 
¡=0 ¡=0 
Este modelo anidado es una forma en la que se ha expresado y estimado el famoso modelo (del 
Banco de la Reserva Federal) de St. Louis, un banco de la escuela monetarista. Sus resultados para 
el periodo del primer trimestre de 1953 al cuarto de 1976 para Estados Unidos son los siguientes 
(las razones t están entre paréntesis):>* 


Coeficiente Estimado Coeficiente Estimado 

Bo 0.40 (2.96) Ào 0.08 (2.26) 

B1 0.41 (5.26) 21 0.06 (2.52) 

Bo 0.25 (2.14) À2 0.00 (0.02) 

B3 0.06 (0.71) A3 —0.06 (-2.20) (13.8.4) 

Ba —0.05 (-0.37) Da —0.07 (-1.83) 

4 4 

SB 1.06 (5.59) Na 0.03 (0.40) 

¡=0 ¡=0 
R? = 0.40 
d= 1.78 


¿Qué indican estos resultados en lo que concierne a la superioridad de un modelo respecto del 
otro? Si nos atenemos al efecto acumulativo de una unidad de cambio en M y E sobre Y, obtene- 
mos respectivamente )%_, £; = 1.06 y X% ài = 0.03, con el primero estadísticamente signifi- 
cativo y el último no. Esta comparación apoyaría la afirmación monetarista de que los cambios 
en la oferta de dinero son los que determinan las variaciones en el PIB (nominal). Se deja como 
ejercicio para el lector evaluar en forma crítica esta afirmación. 


35 Véase Keith M. Carlson, “Does the St. Louis Equation Now Believe in Fiscal Policy?”, Review, Federal Reserve 
Bank of St. Louis, vol. 60, núm. 2, febrero de 1978, p. 17, tabla IV. 
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La prueba J de Davidson-MacKinnon** 


En vista de los problemas que acabamos de mencionar en el procedimiento de prueba F no 
anidado, se han sugerido otras opciones. Una es la prueba J de Davidson-MacKinnon. Para 
ilustrarla, suponga que deseamos comparar la hipótesis o modelo C con la hipótesis o modelo D. 
La prueba J procede de la siguiente forma: 


1. Estimamos el modelo D y de él obtenemos los valores Y estimados, ÊP. 


2. Agregamos el valor Y pronosticado en el paso 1 como una regresora adicional al modelo C 
y estimamos el siguiente modelo: 


Y; =01 + &2Xəi + &3X3i + a4 de + üi (13.8.5) 


donde los valores i? se obtienen del paso 1. Este modelo es un ejemplo del principio de inclu- 
sión, como en la metodología de Hendry. 


3. Con la prueba £, se prueba la hipótesis de que 4 = 0. 


4. Si no se rechaza la hipótesis de que œ4 = 0, podemos aceptar (es decir, no se rechaza) el 
modelo C como el verdadero modelo, pues Y?, incluida en (13.8.5), que representa la influencia 
de las variables no consideradas en el modelo C, no tiene un poder explicativo adicional más 
allá de lo que contribuye el modelo C. En otras palabras, el modelo C incluye al modelo D, en el 
sentido de que este último no contiene ninguna información adicional que mejore el desempeño 
de C. Por el mismo tenor, si se rechaza la hipótesis nula, el modelo C no puede ser el verdadero 
(¿por qué?). 

5. Ahora cambiamos los papeles de las hipótesis, o de los modelos C y D. Estimamos primero 
el modelo C, con los valores Y estimados de este modelo como regresoras en (13.8.5), repetimos el 
paso 4 y decidimos si preferimos o no el modelo D respecto del C. De manera más específica, 
estimamos el siguiente modelo: 


Y; = pi + B2Za + B3Z3 + BYE + ui (13.8.6) 


donde fe son los valores Y estimados del modelo C. Ahora probamos la hipótesis de que 64 = 0. 
Si no se rechaza esta hipótesis, elegimos el modelo D en vez del C. Si se rechaza la hipótesis de 
que B4 = 0, entonces preferiremos C en vez de D, pues este último no tiene un mejor desempeño 
que C. 


Aunque resulta intuitivamente llamativa, la prueba J presenta algunos problemas. Como las 
pruebas dadas en (13.8.5) y (13.8.6) se realizan de manera independiente, tenemos los siguientes 
resultados probables: 


Hipótesis: «4 = 0 


Hipótesis: B4 = 0 No se rechaza Se rechaza 
No se rechaza Se aceptan C y D Se acepta D, se rechaza C 
Se rechaza Se acepta C, se rechaza D Se rechazan C y D 


Como muestra la tabla, no podremos dar una respuesta contundente si el procedimiento de prueba 
J conduce a la aceptación o rechazo de ambos modelos. En caso de que ambos se rechacen, nin- 
gún modelo explica el comportamiento de Y. De igual forma, si ambos se aceptan, como observa 
Kmenta, “los datos al parecer no son lo bastante ricos para discriminar entre las dos hipótesis 


[modelos]”.?” 


36 R, Davidson y J.G. MacKinnon, “Several Tests for Model Specification in the Presence of Alternative Hypo- 
theses”, Econometrica, vol. 49, 1981, pp. 781-793. 


37 Jan Kmenta, op. cit., p. 597. 
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Otro problema con la prueba J es que cuando se utiliza el estadístico £ para probar la sig- 
nificancia de la variable Y estimada en los modelos (13.8.5) y (13.8.6), el estadístico £ tiene la 
distribución normal estándar sólo de manera asintótica, es decir, para muestras grandes. Por 
consiguiente, la prueba J quizá no sea muy poderosa (en el sentido estadístico) para muestras 
pequeñas, pues tiende a rechazar la hipótesis o el modelo verdadero con una frecuencia mayor 
de la que debería. 


EJEMPLO 13.4 
Gasto de consumo 
personal e ingreso 
personal disponible 


TABLA 13.3 

Gasto de consumo 
personal per cápita 
(GCPP) e ingreso per- 
sonal disponible per cá- 
pita (IPDP) en Estados 
Unidos, 1970-2005 


Fuente: Economic Report of the 
President, 2007. 


Para ilustrar la prueba J, considere los datos de la tabla 13.3, la cual proporciona el gasto de 
consumo personal per cápita (GCPP) y el ingreso personal disponible per cápita (IPDP), ambos 
en dólares de 2008, en Estados Unidos de 1970 a 2005. Ahora considere los siguientes mode- 
los rivales: 


Modelo A: GCPP; = œ + 021PDP; + o31PDP;_1 + ue (13.8.7) 
Modelo B:  GCPP¿= fi + B21PDP; + B3GCPP;_1 + ut (13.8.8) 


El modelo A establece que el GCPP depende del IPDP en el periodo actual y previo; este modelo 
es un ejemplo de modelo de rezago distribuido (véase el capítulo 17). El modelo B postula 
que el GCPP depende del IPDP actual y del GCPP del periodo anterior; este modelo representa 
el modelo autorregresivo (véase el capítulo 17). La razón para introducir el valor rezagado del 
GCPP en este modelo es reflejar la inercia o persistencia del hábito. 

Los resultados de estimar estos modelos por separado fueron los siguientes: 


Modelo A: GCPP¿=-—606.6347 + 0.6170 IPDP,+ 0.3530 IPDP;_, 
t= (=3.8334) (2.5706) (1.4377) (13.8.9) 
R?2=0.9983  d=0.2161 


Modelo B: GCPP¿=76.8947 + 0.2074 IPDP,+ 0.8104 GCPP;_1 
t = (0.7256) (2.6734) (9.7343) (13.8.10) 
R2=0.9996 d= 0.9732 


Año GCPP IPDP Año GCPP IPDP 

1970 3162 3 587 1988 13 685 15 297 
1971 3379 3 860 1989 14 546 16 257 
1972 3 671 4140 1990 15 349 17 131 
1973 4 022 4 616 1991 15 722 17 609 
1974 4 364 5010 1992 16 485 18 494 
1975 4 789 5 498 1993 17 204 18 872 
1976 5 282 5972 1994 18 004 19 555 
1977 5 804 6 517 1995 18 665 20 287 
1978 6417 7 224 1996 19 490 21 091 
1979 7 073 7 967 1997 20 323 21 940 
1980 7716 8 822 1998 21 291 23161 
1981 8 439 9 765 1999 22 491 23 968 
1982 8 945 10 426 2000 23 862 25 472 
1983 9775 11 131 2001 24 722 26 235 
1984 10 589 12319 2002 25 501 27 164 
1985 11 406 13 037 2003 26 463 28 039 
1986 12 048 13 649 2004 27 937 29 536 
1987 12 766 14 241 2005 29 468 30 458 


(continúa) 
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EJEMPLO 13.4 


(continuación) 


Si se tuviese que elegir entre estos dos modelos con base en el método de discriminación, 
según el criterio R?, quizá se elegiría el modelo B (13.8.10) porque es un poco más alto que el A 
(13.8.9). Además, en el modelo B (13.8.10) ambas variables son estadísticamente significativas 
en lo individual, en tanto que en el A (1 3.8.9) sólo el IPDP actual es estadísticamente significativo 
(aunque puede haber un problema de colinealidad). Sin embargo, para efectos predictivos no 
existe mucha diferencia entre los dos valores estimados de R?. 

Para aplicar la prueba /, suponga que el modelo A es la hipótesis nula, es decir, el modelo 
mantenido, y el modelo B es la hipótesis alternativa. Siguiendo los pasos de la prueba J analiza- 
dos antes, se utilizan los valores estimados del GCPP del modelo (13.8.10) como una regresora 
incondicional en el modelo A, con el siguiente resultado: 


GCPP;, =— 35.17 + 0.2762IPDP; — 0.5141 IPDP; + 1.2351 GCPP? 
t= (-0.43) (2.60) (4.05) (12.06) (13.8.11) 
R2="1.00/ d/= 1.5205 


donde GCPP* en el miembro derecho de (13.8.11) representa los valores estimados GCPP del 
modelo B (13.8.10). Como el coeficiente de esta variable es estadísticamente significativo con 
un estadístico t muy alto de 12.06, según el procedimiento de la prueba J se tiene que rechazar 
el modelo A y aceptar el B. 

Ahora supondremos que el modelo B es la hipótesis mantenida y que el A es la alternativa, 
exactamente con el mismo procedimiento que antes, y obtenemos los siguientes resultados: 


GCPP¿=- 823.7 + 1.4309IPDP, + 1.0009 GCPP;; — 1.4563 GCPP? 
t= (23.45) (4.64) (12.06) (4.05) (13.8.12) 
R2? = 1.00 d= 1.5205 


donde CCRA en el miembro derecho de la ecuación (13.8.12) representa los valores estimados 
de GCPP del modelo A original (13.8.9). En esta regresión el coeficiente de GCPPH también es 
estadísticamente significativo, con un estadístico t de —4.05. Este resultado indica que ahora 
debemos preferir el modelo B en vez del A. 

Todo lo anterior muestra que ningún modelo es particularmente útil para explicar el com- 
portamiento del gasto de consumo personal per cápita en Estados Unidos de 1970 a 2005. Por 
supuesto, sólo consideramos dos modelos rivales. En realidad, bien puede haber más de dos mo- 
delos. El procedimiento de la prueba J puede ampliarse a la comparación de múltiples modelos, 
aunque así el análisis se complica con facilidad. 

Este ejemplo muestra de forma muy vívida por qué el MCRL supone que el modelo de re- 
gresión del análisis está especificado de modo correcto. Obvio, resulta crucial, al desarrollar un 
modelo, poner especial atención al fenómeno del cual se está haciendo el modelo. 


Otras pruebas para la selección del modelo 

La prueba J recién estudiada sólo es una de un grupo para seleccionar modelos: existe la prueba 
Cox, la prueba JA, la prueba P, la prueba de inclusión Mizon-Richard y variantes de ellas. 
Resulta obvio que no se espera que en este texto estudiemos estas pruebas tan especializadas, 
pero el lector puede consultar las referencias de las notas.* 


38 Véase también Badi H. Baltagi, Econometrics, Springer, Nueva York, 1998, pp. 209-222. 
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13.9 Criterios para la selección de modelos 


En esta sección estudiaremos diversos criterios para elegir entre modelos rivales y/o comparar 
con propósitos de pronóstico. Aquí distinguimos entre pronóstico dentro de la muestra y pro- 
nóstico fuera de la muestra. El primero señala sobre todo cómo elegir el modelo que se ajusta 
a los datos de determinada muestra. El pronóstico fuera de la muestra se refiere a la forma de 
determinar cómo un modelo ajustado pronostica valores futuros de la regresada, dados los valo- 
res de las regresoras. 

Hay diversos criterios para este fin. En particular, examinaremos los siguientes criterios: 
1) RŽ, 2) R? ajustada (= R>, 3) criterio de información Akaike (CIA), 4) criterio de información 
Schwarz (CIS), 5) criterio C, de Mallows y 6) pronóstico x? (ji cuadrada). Todos estos criterios 
pretenden reducir la suma de cuadrados residual (SCR) (o incrementar el valor R?). Sin embargo, 
salvo por el primer criterio, los demás imponen un castigo por incluir un número creciente de 
regresoras. Por tanto, existe un dilema entre la bondad del ajuste del modelo y su complejidad 
(juzgada de acuerdo con el número de regresoras). 


El criterio R? 


Sabemos que una medida de la bondad del ajuste de un modelo de regresión es R?, la cual se 
define como: 


2_ SCE _ | _ SCR 


E E (13.9.1) 
SCT SCT 


Así definida, R? necesariamente está entre O y 1. Mientras más cerca esté de 1, mejor será el 
ajuste. Pero surgen varios problemas con R?. En primer lugar, mide la bondad de ajuste dentro 
de la muestra, en el sentido de conocer la cercanía entre un valor Y estimado y su valor real en la 
muestra dada. No hay garantía de que pronosticará bien las observaciones fuera de la muestra. En 
segundo lugar, al comparar dos o más valores de R?, la variable dependiente, o regresada, debe 
ser la misma. En tercer lugar, y lo más importante, es que una R? no puede disminuir cuando se 
agregan más variables al modelo. Por consiguiente, existe la tentación de apostar por “maximizar 
R?” simplemente añadiendo más variables. Por supuesto que al agregar variables se incremen- 
ta R?, pero también aumenta la varianza del error de predicción. 


R? ajustada 
Debido a la inconveniencia de aumentar regresoras para incrementar el valor de R?, Henry Theil 
desarrolló la R? ajustada, denotada por R?, la cual estudiamos en el capítulo 7. Recuerde que 


po A O 


n=1 


Como se ve en esta fórmula, R? < R?, lo cual muestra cómo la R? ajustada penaliza cuando se 
agregan más regresoras. Como observamos en el capítulo 8, a diferencia de R?, la R? ajustada 
se incrementa sólo si el valor absoluto de £ de la variable añadida es mayor que 1. Así, para com- 
parar, R? es una mejor medida que R?. Pero una vez más, tenga en cuenta que la regresada debe 
ser la misma para que la comparación sea válida. 
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Criterio de información Akaike (CIA) 


La idea de imponer una penalización por añadir regresoras al modelo se desarrolló más en el 
criterio CIA, el cual se define como: 


Sa 
: SCR 
CIA = e/n 244 ¿a CR (13.9.3) 
n n 


donde k es el número de regresoras (inclusive el intercepto) y n es el número de observaciones. 
Por conveniencia matemática (13.9.3) se expresa como 


2k SCR 
In CIA = (5) ze m( 25) (13.9.4) 
n n 


donde In CIA = el logaritmo natural de CIA y 2k/n = factor de penalización. Algunos libros de 
texto y paquetes de software definen al CIA sólo en términos de su transformada logarítmica, 
por lo que no es necesario escribir In antes de CIA. Como se ve en la fórmula, CIA impone una 
mayor penalización que R? por añadir regresoras. Al comparar dos o más modelos, se preferirá el 
que tenga el menor valor CIA. Una ventaja del CIA es que resulta útil no sólo para el desempeño 
de la predicción dentro de la muestra, sino también para el de la predicción fuera de la mues- 
tra de un modelo de regresión. Asimismo, es útil para los modelos anidados y no anidados. Tam- 
bién sirve para determinar la longitud del rezago en el modelo AR(p). 


Criterio de información Schwarz (CIS) 
Con un espíritu similar al CIA, el criterio CIS se define como 


1 SCR 
CIS = pt — qn (13.9.5) 
n n 
o, en forma logarítmica: 
k SCR 
In CIS = — Inn + In ( ) (13.9.6) 
n n 


donde [(k/n) ln n] es el factor de penalización. CIS impone una penalización mayor que CIA, 
como resulta obvio al comparar (13.9.6) con (13.9.4). Al igual que en CIA, mientras más 
pequeño sea el valor de CIS, mejor será el modelo. De nuevo, al igual que en CIA, CIS sirve 
para comparar el desempeño del pronóstico dentro de la muestra y fuera de la muestra de un 
modelo. 


Criterio C, de Mallows 

Suponga que tenemos un modelo con k regresoras, inclusive el intercepto. Sea ô? el estimador de 
la verdadera 0?, como siempre. Pero suponga también que sólo elegimos p regresoras (p < k) y 
obtuvimos la SCR de la regresión con esas p regresoras. Sea SCR, la suma de cuadrado residual 


FIGURA 13.3 
Gráfico de la C, de 
Mallows. 
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obtenida con las p regresoras. Ahora bien, C.P. Mallows elaboró el siguiente criterio para selec- 
cionar modelos, conocido como criterio C,: 


SCR, 
= == 2p) (13.9.7) 


Cp 


donde n es el número de observaciones. 

Sabemos que E (ĉ?) es un estimador insesgado de la verdadera o?. Ahora bien, si el modelo 
con p regresoras es adecuado en lo que se refiere a que no muestra una carencia de ajuste, se 
puede demostrar?’ que E(SCR,) = (n — p)o?. En consecuencia, es verdad aproximadamente 
que 


e 2 
E(Cy) ~ (n ae 


(n—2p) = p (13.9.8) 
Al elegir un modelo de acuerdo con el criterio C,, se debe buscar un modelo con un valor bajo 
de Cp, aproximadamente igual que p. En otras palabras, si seguimos el principio de parsimonia, 
elegiremos un modelo con p regresoras (p < k) que proporcione un ajuste adecuado a los datos. 
En la práctica, se suele graficar C, calculado de (13.9.7) en función de p. Un modelo “ade- 
cuado” se mostrará como un punto cercano a la línea C, = p, como se observa en la figura 13.3, 
en la cual se ve que el modelo A es preferible al B, pues está más cerca a la línea C, = p que 
el B. 


Advertencia sobre los criterios de selección de modelos 


Estudiamos varios criterios para seleccionar modelos. Pero estos criterios se deben considerar 
complementos de las diversas pruebas de especificación vistas en este capítulo. Algunos criterios 
analizados son meramente descriptivos y pueden carecer de propiedades teóricas firmes. Incluso 
a algunos se les puede imputar el cargo de recurrir a la minería de datos. Sin embargo, son tan 
comunes que el lector debe conocerlos. Ninguno de estos criterios es superior a los demás.“ El 


A 


3Y 


3? Norman D. Draper y Harry Smith, Applied Regression Analysis, 3a. ed., John Wiley & Sons, Nueva York, 
1998, p. 332. Consulte este libro para algunos ejemplos resueltos de C. 

40 Hay un análisis útil sobre el tema en Francis X. Diebold, Elements of Forecasting, 2a. ed., South Western, 
2001, pp. 83-89. Respecto del balance, Diebold recomienda el criterio CIS. 
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software más moderno ahora incluye los criterios R?, R? ajustada, CIA y CIS. El criterio de la C, 
de Mallows todavía no suele incluirse, aunque se obtiene con facilidad a partir de su definición. 


Pronóstico ji cuadrada (x?) 


Suponga que tenemos un modelo de regresión basado en n observaciones y además deseamos 
pronosticar con él los valores (medios) de la regresada para f observaciones adicionales. Siempre 
es aconsejable guardar parte de los datos muestrales para ver la forma en que el modelo estimado 
pronostica las observaciones no incluidas en la muestra, el periodo posmuestra: 

Ahora el pronóstico x? se define como sigue: 


n+t ^2 
u; 
Pronóstico, x? = Ln (13.9.9) 
[0 
donde ù; es el error de pronóstico para el periodo i (=n + 1,n + 2,...,+ n + t), con los paráme- 


tros obtenidos de la regresión ajustada y los valores de las regresoras en el periodo posmuestra. 
6? es el estimador usual de MCO para o? basada en la regresión ajustada. 

Si nuestra hipótesis es que los valores de los parámetros no cambiaron entre los periodos de la 
muestra y la posmuestra, podemos demostrar que el estadístico de (13.9.9) sigue la distribución 
ji cuadrada con f grados de libertad, donde f es el número de periodos para los que se realizó el 
pronóstico. Como señalan Charemza y Deadman, la prueba del pronóstico x? tiene un poder es- 
tadístico débil, lo cual significa que la probabilidad de que la prueba rechace correctamente una 
hipótesis nula falsa es baja y por tanto la prueba debe utilizarse más como indicador que como 
prueba definitiva.*! 


13.10 Otros temas relacionados con la creación 


de modelos econométricos 


Como señalamos en la introducción de este capítulo, el tema de la construcción de modelos y de 
las pruebas de diagnóstico es tan amplio y complejo que hay libros especializados al respecto. En 
la sección anterior vimos en forma breve algunos temas importantes de esta área. En esta sección 
proseguimos con unos cuantos temas que a los investigadores les pueden parecer útiles en la 
práctica. En particular, estudiaremos los siguientes temas: 1) valores atípicos, apalancamientos 
e influencia; 2) mínimos cuadrados recursivos y 3) prueba de falla de predicción de Chow. 
Necesariamente, el análisis de cada uno será sucinto. 


Valores atípicos, apalancamiento e influencia“? 

Recuerde que, al reducir la suma de cuadrado residual (SCR), los MCO dan igual ponderación a 
cada observación en la muestra. Pero cada una de éstas quizá no tenga igual efecto en los resul- 
tados de la regresión debido a la presencia de tres tipos de puntos de datos especiales, llamados 
valores atípicos, puntos de apalancamiento y puntos de influencia. Es importante saber lo que 
son y cómo influyen en el análisis de regresión. 

En el contexto de la regresión, un valor atípico puede definirse como una observación con 
un “gran residuo”. Recuerde que 2; = (Y; — Y;); es decir, el residuo representa la diferencia 
(positiva o negativa) entre el valor real de la regresada y su valor estimado a partir del modelo 
de regresión. 


4 Wojciech W. Charemza y Derek F. Deadman, New Directions in Econometric Practice: A General to Specific 
Modelling, Cointegration and Vector Autoregression, 2a. ed., Edward Elgar, 1997, p. 30. Véase también pp. 
250-252 para sus puntos de vista sobre diversos criterios en la selección de modelos. 


42 El siguiente análisis recibió la influencia de Chandan Mukherjee, Howard White y Marc Wyuts, Econome- 
trics and Data Analysis for Developing Countries, Routledge, Nueva York, 1998, pp. 137-148. 
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En cada inciso, las líneas continuas son las líneas de MCO para todos los datos, y las discontinuas son 

las líneas de MCO con el valor atípico, denotado por un =, mismo que se omitió. En a), el valor atípico 
está cerca del valor medio de X y tiene un débil apalancamiento y poca influencia sobre los coeficientes 

de regresión. En b), el valor atípico está lejos del valor medio de X y tiene un fuerte apalancamiento, 

así como una influencia importante en los coeficientes de regresión. En c), el valor atípico tiene un gran 
apalancamiento pero poca influencia en los coeficientes de regresión debido a que está alineado al resto de 
las observaciones. 


Y Y Y 


X X X 
a) b) c) 
Fuente: Adaptado de John Fox, op. cit., p. 268. 


Cuando decimos que un residuo es grande, lo comparamos con los demás residuos, y con mucha 
frecuencia ese residuo tan grande llama la atención de inmediato debido a su enorme distancia 
vertical respecto de la línea de regresión estimada. Observe que en el conjunto de datos puede 
haber más de un valor atípico. Ya vimos un ejemplo de lo anterior en el ejercicio 11.22, don- 
de se pidió al lector hacer la regresión del cambio porcentual en los precios de acciones (Y) so- 
bre el cambio porcentual en los precios al consumidor (X), con una muestra de 20 países. Hay 
que observar que Chile era un valor atípico. 

Decimos que un dato ejerce apalancamiento (grande) si está desproporcionadamente dis- 
tante de la mayor parte de los valores de una(s) regresora(s). ¿Por qué es importante un punto 
de apalancamiento? Porque es capaz de empujar la línea de regresión hacia él mismo, lo que 
distorsiona la pendiente de la línea de regresión. Si esto sucede, este punto (dato) se denomina de 
apalancamiento, un punto de influencia. La eliminación de tales puntos de datos de la muestra 
afecta de manera drástica a la línea de regresión. De vuelta al ejercicio 11.22, verá que si hace la 
regresión Y sobre X, incluso la observación para Chile, el coeficiente de la pendiente es positivo 
y “estadísticamente muy significativo”. Pero si desecha la observación de Chile, el coeficiente de 
la pendiente es casi nulo. Por tanto, la observación sobre Chile tiene un apalancamiento y es una 
observación influyente. 

Para aclarar aún más la naturaleza de los valores atípicos y los puntos de apalancamiento e 
influencia, observe el diagrama de la figura 13.4, el cual se explica por sí mismo.* 

¿Cómo se trabaja con tales puntos de datos?, ¿sólo se debe eliminar y restringir la atención a 
los puntos de datos restantes? De acuerdo con Draper y Smith: 


El rechazo automático de los valores atípicos no siempre es sensato. A veces el valor atípico pro- 
porciona información que otros puntos de datos no suministran debido a que aquél surge de una 
combinación rara de circunstancias que puede revestir vital interés y requerir mayor investigación, 
en vez de rechazarlo. Por regla general, los valores atípicos deben rechazarse sólo si se originan por 
equívocos de registro, observaciones erróneas o un mal montaje de los aparatos [en un experimento 
físico]. De otro modo, se requiere una investigación cuidadosa.“ 


43 Adaptado de John Fox, Applied Regression Analysis, Linear Models, and Related Methods, Sage Publications, 
California, 1997, p. 268. 


44 Norman R. Draper y Harry Smith, op. cit., p. 76. 
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¿Con qué pruebas se pueden detectar los valores atípicos y los puntos de apalancamiento? En 
la bibliografía hay varias, pero no las estudiaremos en este libro porque se desvían mucho del 
tema.* Los paquetes de software como SHAZAM y MICROFIT cuentan con rutinas para detec- 
tar los valores atípicos y los puntos de apalancamiento y de influencia. 


Mínimos cuadrados recursivos 


En el capítulo 8 vimos la estabilidad estructural de un modelo de regresión que implicaba datos 
de series de tiempo, y mostramos la prueba de Chow que cumple con este propósito. De manera 
específica, estudiamos en ese capítulo una función de ahorro simple (el ahorro en función del 
ingreso) en Estados Unidos de 1970 a 2005. Vimos que la relación entre ahorro e ingreso tal 
vez cambió alrededor de 1982. Al conocer el punto crítico estructural, se confirmó mediante la 
prueba de Chow. 

Pero, ¿qué sucede si no conocemos el punto de inflexión estructural? En este caso se utilizan 
los mínimos cuadrados recursivos (MCR). La idea básica es muy sencilla: mediante la regre- 
sión de ahorro-ingreso. 


Y, = bı + PX, +u, 


donde Y = ahorro y X = ingreso en una muestra de 1970 a 2005. (Véase los datos de la tabla 
8.11.) 

Suponga que primero utilizamos los datos de 1970 a 1974 y estimamos la función ahorro, 
para obtener los estimados de 61 y fz. Luego utilizamos los datos de 1970 a 1975 y de nuevo 
estimamos la función ahorro para obtener los estimados de los dos parámetros. Más adelante 
empleamos los datos de 1970 a 1976 y volvemos a estimar el modelo de ahorro. Continuamos 
añadiendo así puntos de datos sobre Y y X hasta agotar la muestra. Como es de imaginarse, cada 
regresión proporciona un nuevo conjunto de estimaciones para $1 y B2. Si graficamos los valores 
estimados de estos parámetros respecto de cada iteración, vemos cómo cambian los paráme- 
tros estimados. Si el modelo en consideración es estructuralmente estable, las variaciones de los 
valores estimados de los dos parámetros serán mínimas y en esencia aleatorias. No obstante, si 
los valores estimados de los parámetros cambian en forma significativa, esto indica un rompi- 
miento estructural. Por tanto, los MCR constituyen una herramienta útil con las series de tiempo, 
pues el tiempo está ordenado cronológicamente. También es una herramienta útil de diagnóstico 
en los datos transversales, donde los datos están ordenados por alguna variable de “tamaño” 
o “escala”, como el empleo o el tamaño de los activos de una empresa. En el ejercicio 13.30 se 
pide al lector aplicar los MCR a los datos de ahorro de la tabla 8.11. 

Los paquetes de software como SHAZAM, EViews y MICROFIT ya estiman en forma ruti- 
naria los mínimos cuadrados recursivos. Asimismo, los MCR también generan residuos recursi- 
vos, en los que se basan diversas pruebas de diagnóstico.* 


Prueba de la falla de predicción de Chow 


Ya analizamos en el capítulo 8 la estabilidad estructural de Chow. Demostró que esta prueba 
se puede modificar para comprobar el poder predictivo de un modelo de regresión. Veamos de 
nuevo la regresión de ahorro-ingreso en Estados Unidos de 1970 a 1995. 


45 Aquí se mencionan algunas fuentes: Alvin C. Rencher, Linear Models in Statistics, John Wiley & Sons, Nueva 
York, 2000, pp. 219-224; A.C. Atkinson, Plots, Transformations and Regressions: An Introduction to Graphical 
Methods of Diagnostic Regression Analysis, Oxford University Press, Nueva York, 1985, cap. 3; Ashis Sen y 
Muni Srivastava, Regression Analysis: Theory, Methods, and Applications, Springer-Verlag, Nueva York, 1990, 
cap. 8, y John Fox, op. cit., cap. 11. 

46 Para más detalles, véase Jack Johnston y John DiNardo, Econometric Methods, 4a. ed., McGraw-Hill, Nueva 
York, 1997, pp. 117-121. 
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_ Suponga que estimamos la regresión ahorro-ingreso de 1970 a 1981 y obtenemos Buos1 y 
B2.70-831, las estimaciones para los coeficientes del intercepto y de la pendiente con base en los 
datos de 1970 a 1981. Ahora, con los verdaderos valores del ingreso de 1982 a 1995 y los valores 
del intercepto y la pendiente de 1970 a 1981, se predecimos los valores de ahorro de cada año de 
1982 a 1995. La idea es que, si no hay un cambio estructural significativo en los valores de los 
parámetros, los valores de ahorro estimados de 1982 a 1995, con base en las estimaciones de 
los parámetros del periodo anterior, no deben ser muy distintos de los valores reales de ahorro 
que prevalecieron en el último periodo mencionado. Por supuesto, si hay una enorme diferencia 
entre los valores del ahorro pronosticados y los reales en el último periodo, surgirán dudas res- 
pecto de la estabilidad de la relación entre ahorro e ingresos para todo el periodo de los datos. 

Mediante la prueba F se demuestra si la diferencia entre el valor del ahorro real y estimado es 
pequeña o grande, de la siguiente forma: 


"yE F a? n 
p- ÈU = En) (13.10.1) 


(247) /(11 — k) 

donde nı = número de observaciones en el primer periodo (1970-1981), en las que se basa la 
regresión inicial, n2 = número de observaciones en el segundo periodo pronosticado, » 4? = 
SCR, cuando la ecuación se estima para todas las observaciones (71 + n2), y X- û? = SCR cuando 
la ecuación se estima para las primeras nı observaciones y k es el número de parámetros estima- 
dos (dos para este caso). Si los errores son independientes y están distribuidos de manera idéntica 
y normal, el estadístico F dado en (13.10.1) sigue la distribución F, con n y nı gl, respectiva- 
mente. En el ejercicio 13.31 se pide al lector aplicar la prueba de falla de predicción de Chow a 
fin de averiguar si la relación ahorro-ingreso en verdad cambió. A propósito, observe la similitud 
entre esta prueba y el pronóstico x? analizado antes. 


Datos faltantes 


En el trabajo aplicado no es raro descubrir que a veces faltan observaciones de los datos de la 
muestra. Por ejemplo, en los datos de series de tiempo puede haber lagunas debido a circuns- 
tancias especiales. Durante la Segunda Guerra Mundial no hubo datos sobre algunas variables 
macroeconómicas o no se publicaron por razones estratégicas. En los datos transversales no es 
extraño descubrir que falta información sobre las variables de algunos individuos, en especial en 
los datos recopilados de encuestas por cuestionarios. En los datos de paneles, asimismo, algunos 
encuestados se retiran a la larga o no proporcionan información en todas las preguntas. 

Sea cual fuere la razón, los datos faltantes son un problema que enfrenta todo investigador 
de vez en cuando. La pregunta es cómo tratar los datos faltantes. ¿Hay alguna forma de asignar 
valores a las observaciones faltantes? 

No es fácil responder. Si bien existen algunas soluciones complicadas que se recomiendan en 
la bibliografía, no las estudiaremos aquí debido a su complejidad.” Sin embargo, analizaremos 
dos casos. En el primero, las razones por las que hay datos faltantes son independientes de 
las observaciones disponibles, situación que Darnell denomina “caso ignorable”. En el segundo 
caso, no sólo los datos disponibles están incompletos, sino que las observaciones faltantes se 
relacionan de manera sistemática con los datos disponibles. Este caso es más grave, pero puede 
ser resultado del sesgo de autoselección, es decir, los datos observados no se recopilan de manera 
en verdad aleatoria. 


47 Para un tratamiento minucioso y avanzado del tema, véase A. Colin Cameron y Pravin K. Trivedi, 
Microeconometrics: Methods and Applications, Cambridge University Press, Nueva York, 2005, capítulo 27, 
pp. 923-941. 

48 El siguiente análisis se basa en Adrian C. Darnell, A Dictionary of Econometrics, Edward Elgar Publishing, 
Lyne, Reino Unido, 1994, pp. 256-258. 


500 


Parte Dos Flexibilización de los supuestos del modelo clásico 


En el caso ignorable se pueden simplemente pasar por alto las observaciones faltantes y usar 
las disponibles. La mayoría de los paquetes de software estadístico lo hace de forma automática. 
Por supuesto, en este caso el tamaño de la muestra se reduce y es posible que no se obtengan 
estimaciones precisas de los coeficientes de regresión. Sin embargo, con los datos disponibles 
pueden aclararse las observaciones faltantes. Aquí veremos tres posibilidades. 


1. De un número total de N observaciones tenemos datos completos sobre N; (N; < N) tanto para 
la variable regresada como para k regresoras denotadas por Yı y X1, respectivamente. (Y, es 
un vector de N; observaciones, y X4, un vector renglón de k regresoras). 


2. En algunas observaciones (M2 < N) existen datos completos para la regresada, denotada por 
Y), pero observaciones incompletas en algunas X, (de nuevo, se trata de vectores). 


3. En algunas observaciones (N3 < N) no hay datos sobre Y, pero tenemos datos completos sobre 
X, denotados por X3. 


En el primer caso, la regresión de Y, sobre X; produce estimaciones de los coeficientes de regre- 
sión insesgados, pero tal vez no sean eficientes porque ignoramos M2 y N3 observaciones. Los 
otros dos casos son muy complicados y corresponde al lector consultar las referencias.* 


13.11 Ejemplos para concluir 


Terminamos con dos ejemplos que ilustran uno o más de los puntos planteados. El primer ejem- 
plo, sobre determinación de salarios, usa datos transversales, y el segundo, que considera la 
función de consumo real de Estados Unidos, datos de series de tiempo. 


1. Un modelo de determinación de salarios por hora 


Para examinar los factores que determinan los salarios por hora consideraremos un modelo sa- 
larial tipo Mincer, popular ya entre los economistas especializados en asuntos laborales. Este 


modelo adopta la siguiente forma:%% 


In salario; = 61 + fB2Esc; + PB3Exp; + BaFe; + B5NB; +86Sind; + B7Sem; + ui 
(13.11.1) 


donde In salario = logaritmo natural del salario por hora ($), Esc = escolaridad en años, Exp = 
experiencia en el mercado laboral, Fe = 1 si es femenino, 0 en otro caso, NB = 1 si el trabajador 
no es blanco, 0 en otro caso, Sind = 1 si es trabajador sindicalizado, 0 en otro caso, y Sem = 1 si 
es trabajador que no recibe salario por hora, 0 en otro caso. Para los trabajadores que no reciben 
salario por hora, éste se calcula como el salario semanal dividido entre el número acostumbrado 
de horas trabajadas. 

Se pueden añadir muchas variables más a este modelo, como origen étnico, estado civil, nú- 
mero de hijos menores de 6 años y riqueza o ingreso no procedente del trabajo. Por el momento 
trabajaremos con el modelo de la ecuación (13.11.1). 

Los datos corresponden a 1 289 personas entrevistadas en marzo de 1985 como parte de la 
Current Population Survey (CPS), que periódicamente realiza la Oficina del Censo de Estados 
Unidos. Paul Rudd recopiló estos datos originalmente.*' 


42 Además de las referencias ya citadas, véase A.A. Afifi y R.M. Elashoff, “Missing Observations in Multiva- 
riate Statistics”, Journal of the American Statistical Association, vol. 61, 1966, pp. 595-604, y vol. 62, 1967, 
pp. 10-29. 

50 Véase J. Mincer, School, Experience and Earnings, Columbia University Press, Nueva York, 1974. 

51 Paul A. Rudd, An Introduction to Classical Econometric Theory, Oxford University Press, Nueva York, 2000. 
No se incluyeron datos sobre edad porque son muy colineales con la experiencia laboral. 
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A priori, esperaríamos que la escolaridad y la experiencia tuviesen efecto positivo en los 
salarios. Se espera que las variables dicótomas Fe y NB tengan efecto negativo en los salarios si 
existe algún tipo de discriminación, y que Sind tenga efecto positivo debido a la incertidumbre 
del ingreso. 

Cuando todas las variables dicótomas toman un valor de cero, la ecuación (13.11.1) se reduce a 


In salario; = 6; + fB2Esc; + P3Exp; + ui (13.11.2) 


que es la función de salario de un trabajador blanco, masculino, no sindicalizado y que percibe 
salario por hora. Esta es la categoría base, o de referencia. 
A continuación presentamos los resultados de la regresión y luego los analizamos. 


TABLA 13.4 Resultados de la regresión de EViews con base en la ecuación (13.11.1) 


Variable dependiente: LS 
Método: Mínimos cuadrados 


Muestra: 1-1, 289 


Observaciones incluidas: 1 289 


Coeficiente Error estándar Estadístico t Prob. 

@ 1.037880 0.074370 LA O 0.0000 
Esc 0.084037 OOO TITO 16.44509 0.0000 
Exp O PLLASZ O COLLES S SISS, 0.0000 
Fe -0.234934 0.026071 = OEA] 0.0000 
NB -0.124447 0.036340 -3.424498 0.0006 
Sind 0.207508 0.036265 5R721:963 0.0000 
Sem 0. 229725 0028939 7.903647 0.0000 
R cuadrada 0.376053 Media de la variable dependiente 2.342416 
R cuadrada ajustada 0.373133 Desviación estándar de la 
Error estándar de la regresión 0.464247 variable dependiente 0.586356 
Suma de cuadrados residual 276.3030 Criterio de información de Akaike 1.308614 
Log verosimilitud -836.4018 Criterio de Schwarz 1.336645 
Estadístico F ASS ANAL Criterio de Hannan-Quinn 1.319136 
Prob. (estadístico F) 0.000000 Estad. Durbin-Watson 1.977004 


Lo primero que se observa es que todos los coeficientes estimados son muy significativos en lo 
individual, pues los valores p son muy bajos. El valor F también es muy alto, lo que indica que 
también, en conjunto, todas las variables son estadísticamente importantes. 

En comparación con el trabajador de referencia, el salario promedio de una trabajadora y de 
un trabajador no blanco es inferior. Los trabajadores sindicalizados y los que perciben salario 
semanal, en promedio, ganan más. 

¿Es adecuado el modelo (13.11.1) dadas las variables consideradas? ¿Es posible que las tra- 
bajadoras no blancas ganen menos que los trabajadores blancos? ¿Es posible que las trabajadoras 
no blancas y no sindicalizadas ganen menos que las trabajadoras blancas sindicalizadas? En 
otras palabras, ¿hay efectos de interacción entre las regresoras cuantitativas y las variables dicó- 
tomas? 

Los paquetes estadísticos responden a estas preguntas. Por ejemplo, EViews cuenta con esta 
capacidad. Después de estimar un modelo, si uno cree que se le pueden agregar algunas variables 
pero no está seguro de su importancia, puede ejecutar la prueba de variables omitidas. 

Para demostrar esto, suponga que estimamos la ecuación (13.11.1) y deseamos averiguar si 
los productos de Fe y NB, Fe y Sind, y Fe y Sem deben agregarse al modelo para tomar en cuenta 
la interacción entre las variables explicativas. Con la rutina de EViews6 obtenemos la siguiente 
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respuesta: la hipótesis nula es que estas tres variables añadidas no tienen efecto en el modelo 
estimado. 

Como es de suponer, la prueba F (estudiada en el capítulo 8) sirve para evaluar la contribución 
marginal, o incremental, de las variables añadidas y probar la hipótesis nula. En este ejemplo, los 
resultados son los siguientes: 


TABLA 13.5 . Variables omitidas: Fe*NB Fe*Sind Fe*Sem 

Resultados parciales 

de EViews mediante Estadístico F 0.805344 Prob. F (3 1279) 0.4909 
interacciones Log razón de verosimilitud 2.432625 Prob. ji cuadrada (3) 0.4876 


No rechazamos la hipótesis nula de que la interacción entre mujeres y no blancos, mujeres y 
sindicalizados y mujeres y trabajadores que perciben salario semanal, colectivamente, no tiene 
efecto significativo en el modelo estimado que se presenta en la tabla 13.4, pues el valor estimado 
de F de 0.8053 no es estadísticamente significativo y el valor p es de aproximadamente 49 por 
ciento. 

Queda al lector la tarea de probar otras combinaciones de regresoras para evaluar su contribu- 
ción al modelo semanal. 

Antes de proseguir, el modelo (13.11.1) indica que la influencia de la experiencia sobre el 
logaritmo de los salarios es lineal, es decir, si las demás variables se mantienen constantes, el in- 
cremento relativo en los salarios (recuerde que la regresada está en forma logarítmica) es igual por 
cada año de aumento de experiencia laboral. Este supuesto puede ser verdadero a través de varios 
años de experiencia, pero como indica la economía laboral básica, conforme los trabajadores en- 
vejecen, el aumento de la tarifa salarial se reduce. Para comprobar si así sucede en este ejemplo, 
agregamos el término de experiencia al cuadrado al modelo inicial, con los siguientes resultados: 


TABLA 13.6 Resultados de EViews con experiencia al cuadrado 


Variable dependiente: LS 
Método: Mínimos cuadrados 
Muestias 1-1, 289 
Observaciones incluidas: 1 289 


Coeficiente Error estándar Estadístico t Prob. 

C 0. S112279) omor S ESI La. 13922 00000 
Esc 00793567 0.005 05L 15. 81218 O. OOO 
Exp 0.036659 0..0038:00 9.647230 0. 00.010: 

Fe -0.228848 0.025606 -=8.937218 0.0000 
NB 0. 121805 0.035673 -3.414458 0.0007 
Sind © LIST 0.035614 5.614579 0.0000 
Sem 0.222549 0.028420 M80675 0.0000 

ExXp*Exp -0.000611 8.68£=05 -7.037304 0.0000 

R cuadrada 0. 3992VT Media de la variable dependiente 2.342416 
R cuadrada ajustada 0.395995 Desviación estándar de la 

Error estándar de la regresión 0.455703 variable dependiente 0.586356 
Suma de cuadrados residual 266.0186 Criterio de información de Akaike 1.272234 
Log verosimilitud -811.9549 Criterio de Schwarz 1.304269 
Estadístico F 121.6331 Criterio de Hannan-Quinn 1.284259 
Prob. (estadístico F) 0.000000 Estad. Durbin-Watson 13971753 


El término de experiencia al cuadrado no sólo es negativo, sino también muy significativo esta- 
dísticamente. Además, concuerda con el comportamiento del mercado laboral; con el tiempo, la 


ol 
tasa de crecimiento de los salarios se desacelera (os = 0.0366 — 0.0012ExXP), 
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Aquí se abre la oportunidad para explicar los criterios de Akaike y Schwartz. Al igual que R?, 
son pruebas de la bondad del ajuste del modelo estimado; la diferencia radica en que según el 
criterio R?, cuanto mayor sea el valor, el modelo explicará mejor el comportamiento de la variable 
regresada. Por otra parte, según los criterios de Akaike y Schwartz, cuanto más bajo sea el valor 
de estos estadísticos, mejor será el modelo. 

Por supuesto, todos estos criterios son significativos si deseamos comparar dos o más mode- 
los. Así, si comparamos el modelo de la tabla 13.4 con el de la tabla 13.6, que tiene la experiencia 
elevada al cuadrado como regresora adicional, se observa que el modelo de la tabla 13.6 es pre- 
ferible al de la tabla 13.4 con base en los tres criterios. 

A propósito, note que en los dos modelos los valores de R? parecen “bajos”, pero estos valores 
bajos se observan por lo general en datos transversales con un gran número de observaciones. 
Sin embargo, tenga en cuenta que este valor “bajo” de R? es estadísticamente significativo, pues, 
en los dos modelos, el estadístico F calculado es muy significativo (recuerde la relación entre F 
y R? del capítulo 8). 

Continuemos con el modelo ampliado de la tabla 13.6. Aunque el modelo parece satisfactorio, 
exploraremos dos cuestiones. Primera, en vista de que se trata de datos transversales, hay muchas 
probabilidades de que el modelo sufra de heteroscedasticidad. En consecuencia, es preciso ave- 
riguar si es así. Aplicamos varias de las pruebas de heteroscedasticidad estudiadas en el capítulo 
11 y comprobamos que el modelo, en efecto, tiene heteroscedasticidad. El lector debe corroborar 
esta afirmación. 

Para corregir esta heteroscedasticidad obtenemos los errores estándar consistentes con hete- 
roscedasticidad de White, que examinamos en el capítulo 11. Los resultados se presentan en la 
siguiente tabla. 


TABLA 13.7 Resultados de EViews mediante errores estándar corregidos de White 


Variable dependiente: LS 

Método: Mínimos cuadrados 

Muestizas Isi, 289 

Observaciones incluidas: 1 289 

Errores estándar consistentes con heteroscedasticidad de White y covarianza 


Coeficiente Error estándar Estadístico t Prob. 
€ omon22rmo 0.077524 TULA 0.0000 
Esc 0079864 0.005640 14.,15988 0.0000 
EXp 0..036659 0003783 9.675724 0.0000 
Fe -0.228848 0.025764 22m9 392625 0.0000 
NB US 0 0100336398 O AA 0.0003 
Sind 0 LSS S5 y 00279935 6.668458 0.0000 
Sem 0.222549 0. 0314301 TALLOS 0.0000 
Exp* Exp -0.000611 9.44E-05 -6.470218 0.0000 
R cuadrada 0.399277 Media de la variable dependiente 2.342416 
R cuadrada ajustada 0.395995 Desviación estándar de la 
Error estándar de la regresión 0.455703 variable dependiente 0.586356 
Suma de cuadrados residual 266.0186 Criterio de información de Akaike 1.272234 
Log verosimilitud -811.9549 Criterio de Schwarz 1.304269 
Estadístico F 121.6331 Criterio de Hannan-Quinn 1.284259 
Prob. (estadístico F) 0.000000 Estad. Durbin-Watson IROS 


Como es de esperar, se advierten algunos cambios en los errores estándar estimados, aunque 
esto no modifica la conclusión de que todas las regresoras son importantes, tanto en lo individual 
como en lo colectivo, para explicar el comportamiento de los salarios relativos. 

A continuación examinaremos si los términos de error están distribuidos normalmente. En la 
figura 13.5 se presenta el histograma de los residuos obtenidos del modelo de la tabla 13.7. El 
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FIGURA 13.5 

Histograma de los resi- 
duos obtenidos de la re- 
gresión de la tabla 13.7. 


FIGURA 13.6 
Residuos y valores esti- 
mados de la variable de- 
pendiente, ln salarios. 
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estadístico de Jarque-Bera rechaza la hipótesis de que los errores están distribuidos normalmente, 
pues el estadístico de JB es alto y el valor p es prácticamente cero: observe que para una variable 
distribuida normalmente, los coeficientes de asimetría y curtosis son 0 y 3, respectivamente. 

¿Qué sigue? El procedimiento de pruebas de hipótesis se ha basado hasta el momento en el 
supuesto de que el término de perturbación, o error, en el modelo de regresión está distribuido 
normalmente. ¿Significa esto que no se pueden usar legítimamente las pruebas t y F para probar 
las hipótesis de la regresión de los salarios? 

La respuesta es no. Como señalamos en el capítulo, los estimadores de MCO tienen distribu- 
ción normal asintótica, con la advertencia apuntada en el capítulo, es decir, el término de error 
tiene varianza finita, es homoscedástico y el valor medio del término de error, dados los valores 
de las variables explicativas, es cero. Como resultado, podemos seguir usando las pruebas t y F 
acostumbradas en tanto la muestra sea razonablemente grande. A propósito, debe señalarse que 
no necesitamos el supuesto de normalidad para obtener los estimadores de MCO. Aun sin el su- 
puesto de normalidad, los estimadores de MCO son los mejores estimadores lineales insesgados 
(MELI) según los supuestos de Gauss-Markov. 

¿De qué tamaño es una muestra grande? No hay respuesta definitiva, pero el tamaño de la 
muestra de 1 289 observaciones de la regresión de los salarios parece razonablemente grande. 

¿Hay “valores atípicos” en la regresión de los salarios? Es posible darse una idea con el grá- 
fico de la figura 13.6, que presenta los valores reales y estimados de la variable dependiente 
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(In salarios) y los residuos, que son las diferencias entre los valores reales y los estimados de la 
regresada. 

Aunque el valor medio de los residuos es siempre cero (¿por qué?), la gráfica de la figura 13.6 
muestra varios residuos que dan la impresión de ser grandes (en valor absoluto) en comparación 
con la mayoría de ellos. Es posible que haya valores atípicos en los datos. Se proporcionan las 
estadísticas básicas de las tres variables cuantitativas en la tabla 13.8 para que el lector decida si, 
en efecto, hay valores atípicos. 


TABLA 13.8 Mueslriels Isi, 285) 
Sal Esc Exp 

Media 1276585 13.,14507 18.78976 
Mediana 10.08000 TZ2.00000 18.00000 
Máximo 64.08000 20.00000 56.00000 
Mínimo 0.840000 0.000000 0.000000 
Desv. est. 7.896350 2 LBS 11.66284 
Asimetría 1.848114 2029038 omo75669 
Curtosis 7m 836565 5.977464 2321946 
Jarque-Bera 1990. 134 494,2552 54.57664 
Probabilidad 0.000000 0.000000 0.000000 
Suma 1% 2397398 16 944.00 24122000 
Suma desv. al cuadrado 80 309.82 10 197.87 175 196.0 
Observaciones 1 289 1 289 1 289 


2. Función de consumo real de Estados Unidos, 1947-2000 


En el capítulo 10 consideramos la función de consumo en Estados Unidos de 1947 a 2000. La 
forma específica de la función de consumo fue: 


In GT, = £1 + 62 In ID; + 83 In Riq + p4lnterés; + u, (13.11.3) 


donde GT, ID, Riqueza e Interés son, respectivamente, gasto total de consumo, ingreso perso- 
nal disponible, riqueza y tasa de interés, todos en términos reales. Los resultados basados en los 
datos son los siguientes: 


TABLA 13.9 Resultados de la ecuación de regresión (13.11.3) 


Método: Mínimos cuadrados 
Muestra: 1947-2000 
Observaciones incluidas: 54 


Coeficiente Error estándar Estadístico t Prob. 

© -0.467711 0.042778 -10.33343 0.0000 

LOG (ID) 0.804873 0.017498 45.99836 0.0000 

LOG (RIQUEZA) 0..201270 VOLTS SS 11.44060 0.0000 

INTERÉS -0.002689 0.000762 o 0.0009 
R cuadrada 0.999560 Media de la variable dependiente 7.826093 

R cuadrada ajustada 0.999533 Desviación estándar de la 

Error estándar de la regresión 0.011934 variable dependiente 0.552368 
Suma de cuadrados residual 0.007121 Criterio de información de Akaike -5.947703 
Log verosimilitud 164.5880 Criterio de Schwarz -5.800371 
Estadístico F 27 832,59 Criterio de Hannan-Quinn -5.890883 


Prob. (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.289219 
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TABLA 13.10 


Como GT, ID y Riqueza entran en forma de logaritmo, los coeficientes estimados de la pen- 
diente de ID y Riqueza son, respectivamente, las elasticidades del ingreso y la riqueza. Como es 
de esperar, estas elasticidades son positivas y muy significativas estadísticamente. En términos 
numéricos, las elasticidades del ingreso y de la riqueza son casi 0.80 y 0.20. El coeficiente de la 
variable tasa de interés representa semielasticidad (¿por qué?). Si las demás variables permane- 
cen constantes, los resultados demuestran que si la tasa de interés aumenta un punto porcentual, 
en promedio, el gasto de consumo real se reduce alrededor de 0.27%. Observe que la semielasti- 
cidad estimada también es muy significativa en términos estadísticos. 

Aprecie algunos estadísticos del resumen. El valor de R? es muy alto y llega casi a 100%. El 
valor F también es muy significativo estadísticamente, lo que indica que no sólo en lo individual, 
sino también en conjunto, todas las variables explicativas tienen efecto significativo sobre el 
gasto de consumo. 

No obstante, el estadístico de Durbin-Watson indica que los errores del modelo están serial- 
mente correlacionados. Si consulta las tablas Durbin-Watson (tabla D.5, apéndice D), advertirá 
que para 55 observaciones (el número más cercano a 54) y tres variables explicativas, los valores 
críticos d inferior y superior a 5% son 1.452 y 1.681. Como la d observada en el ejemplo, 1.2892, 
se sitúa por debajo del valor crítico d inferior, podemos concluir que los errores de esta función 
de consumo tienen correlación positiva. Este resultado no debe sorprender, pues en la mayoría de 
las regresiones de series de tiempo existe autocorrelación. 

Pero antes de aceptar esta conclusión, veamos si existen errores de especificación. Como sa- 
bemos, en ocasiones la autocorrelación puede ser aparente porque se omitieron algunas variables 
importantes. Para ver si es así, consideremos la regresión obtenida en la tabla 13.10. 


Variable dependiente: LGT 
Método: Mínimos cuadrados 


Muestra: 1947-2000 


Observaciones incluidas: 54 


Coeficiente Error estándar Estadístico t Probabilidad 

C 2.689644 0.566034 ES E B 0.0000 

LID 0.512836 0.054056 9.487076 0.0000 

LRiqueza 20.020.028 1 0.074068 SO 4.0079 

INTERÉS -0.001162 0.000661 =T a Patada 0.0848 

LID*LRiqueza T oSI 0.007141 2001280 0.0000 
R cuadrada 0.999731 Media de la variable dependiente 7.8260933 

R cuadrada ajustada 0.999709 Desviación estándar de la 

Error estándar de la regresión 0.009421 variable dependiente 0.552368 
Suma de cuadrados residual 0.004349 Criterio de información de Akaike -6.403689 
Log verosimilitud 177.8996 Criterio de Schwarz -6.219524 
Estadístico F 45 534.94 Criterio de Hannan-Quinn -5.890883 
Probabilidad (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.530268 


La variable adicional de este modelo es la interacción de los logaritmos del ingreso disponible 
y de la riqueza. El término de interacción es muy significativo. Observe que ahora la variable in- 
terés es menos significativa (el valor p es de casi 8%), aunque conserva el signo negativo. Pero 
ahora el valor d de Durbin Watson aumentó de casi 1.28 a alrededor de 1.53. 

Los valores críticos d a 5% son ahora 1.378 y 1.721. El valor d observado de 1.53 se sitúa 
entre estos valores, lo que indica que, con base en el estadístico de Durbin-Watson, no podemos 
determinar si hay autocorrelación. Sin embargo, el valor d observado está más cerca del límite 
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superior del valor d. Como señalamos en el capítulo sobre autocorrelación, algunos autores pro- 
ponen usar el límite superior del estadístico d como el verdadero límite de significancia aproxi- 
mado; por tanto, si el valor d calculado se sitúa por debajo del límite superior, hay indicios de 
autocorrelación positiva. Con base en ese criterio, en el presente caso podemos concluir que el 
modelo sufre de autocorrelación positiva. 

También aplicamos la prueba de autocorrelación de Breusch-Godfrey que explicamos en 
el capítulo 12. Al sumar los dos términos rezagados de los residuos estimados en la ecuación 
(12.6.15) al modelo de la tabla 13.9, obtuvimos los siguientes resultados: 


TABLA 13.11 
Prueba ML de correlación serial de Breusch-Godfrey 
Estadístico F 30254131 Prob. F(2, 48) 0.0473 
R cuadrada obs.* 6.447576 Prob. Ji cuadrada (2) 0.0398 


Variable dependiente: RESID 

Método: Mínimos cuadrados 

Muestra: 1947-2000 

Observaciones incluidas: 54 

Valores de los residuos rezagados faltantes de preprueba fijados en cero. 


Coeficiente Error estándar Estadístico t Probabilidad 

de -0.006514 0.041528 -0 156851, 06 :8:260 

LID -0.004197 O-OLITSO -0.244619 0.8078 

LRiqueza 0.004191 DALT de 0.242674 08093 

INTERÉS 0.000116 0.000736 0.156964 0-75 

RESID (-1) 02385190 Qo ESSESI. 2.541147 0.0143 

RESID (-2) -0.165609 0.154695 1 UTOS So 0.2897 
R cuadrada 0.119400 Media de la variable dependiente -9.02E-17 

R cuadrada ajustada 0.027670 Desviación estándar de la 

Error estándar de la regresión 0.011430 variable dependiente 0.011591 
Suma de cuadrados residual 0.006271 Criterio de información de Akaike -6.000781 
Log verosimilitud 168.0211 Criterio de Schwarz -5.779782 
Estadístico F 1.301653 Criterio de Hannan-Quinn -5.915550 
Probabilidad (estadístico F) 0.279040 Estadístico de Durbin-Watson 1.848014 


El valor F reportado al principio de la tabla prueba la hipótesis de que los dos residuos rezagados 
incluidos en el modelo tienen valores cero. Esta hipótesis se rechaza porque el valor F es signifi- 
cativo en el nivel aproximado de 5 por ciento. 

Para resumir, parece que hay autocorrelación en el término de error. Se pueden aplicar uno 
o más de los procedimientos analizados en el capítulo 12 para eliminar la autocorrelación. Sin 
embargo, para ahorrar espacio, se deja esa tarea al lector. 

En la tabla 13.12 presentamos los resultados del análisis de regresión de los errores estándar 
CHA o Newey-West que toman en cuenta la autocorrelación. El tamaño de la muestra de 54 ob- 
servaciones es lo bastante grande para usar los errores estándar CHA. 

Si compara estos resultados con los que se presentan en la tabla 13.9, observará que los coefi- 
cientes de regresión siguen siendo los mismos, pero los errores estándar son un poco diferentes. 

En este capítulo hablamos de la prueba de falla de predicción de Chow. Tenemos un periodo 
de muestra de 1947 a 2000. Durante este periodo se registraron varios ciclos económicos, en su 
mayoría breves. Por ejemplo, hubo una recesión en 1990 y otra en 2000. ¿El comportamiento del 
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TABLA 13.12 


Variable dependiente: LGT 

Método: Mínimos cuadrados 

Muestra: 1947-2000 

Observaciones incluidas: 54 

Errores estándar CHA Newey-West y covarianza (truncamiento de rezago = 3) 


Coeficiente Error estándar Estadístico t Probabilidad 
€ -0.467714 0.043937 -10.64516 00000 
LID 0.804871 OROAR 47.02132 0.0000 
LRiqueza 0.20 1272 0.015447 13.02988 0.0000 
INTERÉS -0.002689 0.000880 -3.056306 0.0036 
R cuadrada 0.999560 Media de la variable dependiente 7.826093 
R cuadrada ajustada 0.999533 Desviación estándar de la 
Error estándar de la regresión 0.011934 variable dependiente 0.552368 
Suma de cuadrados residual 0.007121 Criterio de información de Akaike -5.947707 
Log verosimilitud 164.5881 Criterio de Schwarz -5.800374 
Estadístico F 37 ES2. 71 Criterio de Hannan-Quinn -5.890886 
Probabilidad (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.289237 


gasto de consumo en relación con el ingreso, riqueza y la tasa de interés es distinto durante las 
recesiones? 

Para aclarar esta pregunta, consideremos la recesión de 1990 y apliquemos la prueba de falla de 
predicción de Chow. Los detalles de esta prueba ya se analizaron en el capítulo. Con la prueba 
de falla de predicción de Chow en EViews, versión 6, obtenemos los resultados de la tabla 13.13. 


TABLA 13.13 Prueba de falla de predicción de Chow 


Prueba de pronóstico de Chow: Pronóstico de 1991 a 2000 


Estadístico F LADIES Pico. 1 (LO, 20) 0.0652 
Log razón de verosimilitud 21.51348 Prob. ji cuadrada (10) 0.0178 


Variable dependiente: LGT 
Método: Mínimos cuadrados 
Muestra: 1947-2000 
Observaciones incluidas: 44 


Coeficiente Error estándar Estadístico t Probabilidad 

E A 0.095089 =J DAA 0.0043 

LID UB 0.028473 29.96474 0.0000 

LRiqueza 0. 141513 070221085 4.277239 0.0001 

INTERÉS -0.002060 0.000804 -2 a 5O27 S0) 0.0143 
R cuadrada 0.999496 Media de la variable dependiente 7.659729 

R cuadrada ajustada 0.999458 Desviación estándar de la 

Error estándar de la regresión 0.010933 variable dependiente 0.469580 
Suma de cuadrados residual 0.004781 Criterio de información de Akaike -6.107640 
Log verosimilitud 138.3681 Criterio de Schwarz -5.945441 
Estadístico F 26 430.49 Criterio de Hannan-Quinn -6.047489 


Probabilidad (estadístico F) 0.000000 Estadístico de Durbin-Watson 1.262748 


TABLA 13.14 
Prueba de estabilidad 
paramétrica de Chow 
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El estadístico F dado en la parte superior de la tabla 13.13 indica que probablemente no hay 
diferencia considerable en la función de consumo antes y después de 1990, pues el valor p no es 
significativo en el nivel de 5%. Sin embargo, si elegimos el nivel de significancia de 10%, el valor 
F es significativo estadísticamente. 

Podemos examinar este problema de otra manera. En el capítulo 8 analizamos una prueba de 
estabilidad de parámetros. Para ver si hubo algún cambio estadísticamente significativo en los 
coeficientes de regresión de la función de consumo, aplicamos la prueba de Chow estudiada en 
la sección 8.7 del capítulo 8 y obtuvimos los resultados de la tabla 13.14. 


Prueba de puntos de ruptura estructural de Chow: 1990 
Hipótesis nula: No hay rupturas en los puntos especificados 
Regresoras que varían: Todas las variables de la ecuación 
Muestra de la ecuación: 1947-200 


Estadístico F 4.254054 Prob. F(4, 46) 0.0052 
Log razón de verosimilitud 16.99654 Prob. ji cuadrada (4) 0.0019 
Estadístico de Wald 17 ¿01522 Prob. ji cuadrada (4) 0.0019 


En apariencia, las funciones de consumo antes y después de 1990 son estadísticamente dife- 
rentes, pues el estadístico F calculado, según la ecuación (8.7.4), es muy significativo estadísti- 
camente, porque el valor p es de sólo 0.0052. 

Se invita al lector a aplicar las pruebas de estabilidad paramétrica y falla de predicción de 
Chow para determinar si varió la función de consumo antes y después de 2000. Para ello será 
necesario ampliar los datos más allá de 2000. Asimismo, observe que, para aplicar estas pruebas, 
el número de observaciones debe ser mayor que el número de coeficientes estimados. 

Agotamos todas las pruebas de diagnóstico que se pueden aplicar a los datos de consumo. Sin 
embargo, el análisis hasta el momento debe dar una idea muy buena de cómo aplicar las diversas 
pruebas. 


13.12 Errores no normales y regresoras estocásticas 


En esta sección analizamos dos temas más o menos avanzados, a saber, la distribución no normal 
del término de error y las regresoras estocásticas, o aleatorias, y su importancia práctica. 


1. ¿Qué pasa si el término de error no está distribuido 
normalmente? 


En el modelo clásico de regresión lineal normal (MCRLN) explicado en el capítulo 4, supusimos 
que el término de error u sigue la distribución normal. Invocamos el teorema central del límite 
(TCL) para justificar el supuesto de normalidad. Debido a este supuesto, podemos establecer que 
los estimadores de MCO también están distribuidos normalmente. Como resultado, para probar 
hipótesis aplicamos las pruebas £ y F sin importar el tamaño de la muestra. También explicamos 
cómo usar las pruebas de normalidad de Jarque-Bera y Anderson-Darling para averiguar si los 
errores estimados están distribuidos normalmente en cualquier aplicación práctica. 

¿Qué sucede si los errores no están distribuidos normalmente? Podemos afirmar que los esti- 
madores de MCO siguen siendo MELI, es decir, que son insesgados y en la clase de estimadores 
lineales exhiben varianza mínima. En principio, esto no debe sorprender, pues, para establecer el 
teorema de Gauss-Markov (MELI), no necesitamos el supuesto de normalidad. 

Entonces, ¿cuál es el problema? 

El problema es que se necesitan las distribuciones de muestreo, o de probabilidades, de 
los estimadores de MCO. Sin eso no es posible realizar ningún tipo de prueba de hipótesis refe- 
rente a los valores verdaderos de estos estimadores. Como se muestra en los capítulos 3 y 7, los 
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estimadores de MCO son funciones lineales de la variable dependiente Y, y la propia Y es una 
función lineal del término de error estocástico u, suponiendo que las variables explicativas son 
no estocásticas, o fijas, en muestras repetidas. En última instancia, necesitamos la distribución 
de probabilidades de u. 

Como se mencionó, el modelo clásico de regresión lineal normal (MCRLN) supone que el 
término de error sigue la distribución normal (con media cero y varianza constante). Aplicamos 
el teorema central del límite (TCL) para justificar la normalidad del término de error y de- 
mostramos que los estimadores de MCO están distribuidos normalmente con medias y varianza 
analizadas en los capítulos 4 y 7. Esto, a su vez, permitió usar los estadísticos £ y F para probar 
hipótesis en muestras pequeñas, o finitas, así como en muestras grandes. Por tanto, la función del 
supuesto de normalidad es crucial, en especial en muestras pequeñas. 

Pero, ¿qué pasa si no es posible sostener el supuesto de normalidad con base en las diferentes 
pruebas de normalidad? ¿Y después qué? Existen dos opciones. La primera es el remuestreo, y 
la segunda consiste en invocar la teoría de muestras grandes, o asintóticas. 

El análisis del método de remuestreo, que poco a poco se filtra en la econometría aplicada, 
nos desviaría mucho del tema. La idea básica del remuestreo es agitar (o revolver) una muestra 
dada una y otra vez y luego obtener las distribuciones muestrales de los parámetros de interés 
(estimadores de MCO, para estos propósitos). El método en la práctica se deja como tema de con- 
sulta.? A propósito, el término procede de la expresión popular “salir adelante por uno mismo”. 

El otro método para tratar con los términos de error no normales es aplicar la teoría de mues- 
tras grandes, o asintóticas. De hecho, dimos un vistazo a esto en el apéndice 3A.7, en el capítulo 
3, cuando demostramos que los estimadores de MCO son consistentes. Como analizamos en el 
apéndice A, un estimador es consistente si se aproxima al valor verdadero del estimador con- 
forme la muestra aumenta cada vez más (véase la figura A.11, en el apéndice A). 

Pero, ¿de qué sirve eso en las pruebas de hipótesis? ¿Es posible seguir usando las pruebas t 
y F? Se puede demostrar que según los supuestos de Gauss-Markov, los estimadores de MCO 
tienen distribución normal asintótica, con las medias y varianzas que expusimos en los capí- 
tulos 4 y 7. Como resultado, las pruebas f y F ejecutadas según el supuesto de normalidad son 
aproximadamente válidas en muestras grandes. La aproximación llega a ser muy buena conforme 
aumenta el tamaño de la muestra.** 


2. Variables explicativas estocásticas 


En el capítulo 3 introdujimos el modelo clásico de regresión lineal (en los parámetros) sgún cier- 
tos supuestos de simplificación. Un supuesto fue que las variables explicativas, o regresoras, eran 
fijas o no estocásticas, o, si eran estocásticas, eran independientes del término de error. El primer 
caso se denomina caso de regresoras fijas, y el segundo, de regresoras aleatorias. 


52 Para un análisis informal, véase Christopher Z. Mooney y Robert D. Duval, Bootstrapping: A Nonparametric 
Approach to Statistical Inference, Sage University Press, California, 1993. Para un análisis clásico más formal, 
véase Russell Davidson y James G. MacKinnon, Econometric Theory and Methods, Oxford University Press, 
Nueva York, 2004, pp. 159-166. 

53 Recuerde los supuestos de Gauss-Markov, a saber: el valor esperado del término de error es cero, el 
término de error y cada una de las variables explicativas son independientes, la varianza del error es 
homoscedástica y no hay autocorrelación en el término de error. También se supone que la matriz de 
varianza-covarianza de las variables explicativas es finita. Asimismo, podemos flexibilizar la condición de 
independencia entre el término de error y las regresoras, y suponer la condición más débil de que no están 
correlacionadas. 

54 La prueba de la normalidad asintótica de los estimadores de MCO trasciende el alcance de este libro. 
Véase James H. Stock y Mark W. Watson, Introduction to Econometrics, 2a. ed., Pearson/Addison Wesley, Bos- 
ton, 2007, pp. 710-711. 
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En el caso de regresoras fijas ya conocemos las propiedades de los estimadores de MCO 
(véanse los capítulos 5 y 8). En el caso de regresoras aleatorias, si mantenemos el supuesto de 
que el análisis depende de los valores dados de las regresoras, las propiedades de los estimadores 
de MCO que estudiamos en el caso de las regresoras fijas siguen siendo válidas. 

Si en el caso de regresoras aleatorias suponemos que dichas regresoras y el término de error 
están distribuidos de manera independiente, los estimadores de MCO siguen siendo insesgados, 
pero no son eficientes.” 

Las cosas se complican si el término de error no está distribuido normalmente, o las regreso- 
ras son estocásticas, o ambas cosas. Aquí es difícil generalizar sobre las propiedades de muestras 
finitas de los estimadores de MCO. Sin embargo, en ciertas condiciones podemos invocar el 
teorema central del límite para establecer la normalidad asintótica de los estimadores de MCO. 
Aunque están fuera del ámbito de este libro, hay demostraciones en otros textos. 


13.13 Advertencia para el profesional 


Hemos visto una enorme cantidad de cosas en este capítulo. No hay duda de que la elaboración 
de modelos es tanto un arte como una ciencia. Un investigador práctico quizá se desconcierte por 
las sutilezas teóricas y el conjunto de herramientas de diagnóstico. Pero conviene tener en men- 
te la advertencia de Martin Feldstein: “El econometrista aplicado, como el teórico, pronto des- 
cubre a partir de la experiencia que un modelo útil no es el “verdadero” o ‘real’, sino el escueto, 
factible e informativo”.*” 

Peter Kennedy, de la Universidad Simon Fraser de Canadá, establece los siguientes “diez 


mandamientos de la econometría aplicada”:*8 


1. Utilizarás el sentido común y la teoría económica. 


2. Plantearás las preguntas adecuadas (es decir, preferirás la relevancia antes que la elegancia 
matemática). 


3. Conocerás el contexto (no harás análisis estadísticos ignorantes). 
4. Inspeccionarás los datos. 


5. No idolatrarás la complejidad. Utilizarás el principio MSE; es decir, mantener la simplici- 
dad estocástica. 


. Verás las consecuencias de tus resultados y serás perseverante con ellos. 
. Estarás consciente de los costos de la minería de datos. 


. Estarás dispuesto a comprometerte (no adorarás las prescripciones de los libros de texto). 


NO 0 10 


. No confundirás significancia con sustancia (no confundirás la significancia estadística con la 
significancia práctica). 
10, Te confesarás ante la presencia de la sensibilidad (es decir, te anticiparás a las críticas). 


Tal vez el lector desee consultar la totalidad del escrito de Kennedy para apreciar la convicción 
con la que defiende los diez mandamientos anteriores. Algunos pueden parecer sarcásticos, pero 
hay más de un grano de verdad en cada uno de ellos. 


55 Para los detalles técnicos, véase William H. Greene, Econometric Analysis, 6a. ed., Pearson/Prentice-Hall, 
Nueva Jersey, 2008, pp. 49-50. 


56 Véase Greene, op. cit. 


57 Martin S. Feldstein, “Inflation, Tax Rules and Investment: Some Econometric Evidence”, Econometrica, vol. 
30, 1982, p. 829. 


58 Peter Kennedy, op. cit., pp. 17-18. 
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Resumen y 
conclusiones 


10. 


11. 


. El supuesto del MCRL de que el modelo econométrico del análisis está correctamente espe- 


cificado tiene dos significados. Primero, que no hay errores de especificación ecuacionales 
y segundo, que no hay errores de especificación de modelo. En este capítulo, el enfoque 
principal fueron los errores de especificación ecuacionales. 


. Los errores de especificación ecuacionales analizados en este capítulo fueron: 1) omisión de 


una(s) variable(s) importante(s), 2) inclusión de una(s) variable(s) superflua(s), 3) adopción 
de la forma funcional equivocada, 4) especificación incorrecta del término de error u; y 5) 
errores de medición en la variable regresada y en las regresoras. 


Cuando se omiten variables legítimas del modelo, las consecuencias pueden ser muy graves: 

los estimadores de MCO de las variables consideradas en el modelo no sólo están sesgados 
sino que también son inconsistentes. Además, las varianzas y los errores estándar de estos 
coeficientes están estimados en forma incorrecta, lo que vicia los procedimientos usuales de 
pruebas de hipótesis. 


. Afortunadamente, las consecuencias de incluir variables irrelevantes en el modelo son 


menos graves: los estimadores de los coeficientes de las variables relevantes, al igual que 
los de las variables “irrelevantes”, permanecen insesgados y continúan siendo consistentes, 
y la varianza del error o? permanece correctamente estimada. El único problema es que las 
varianzas estimadas tienden a ser más grandes de lo necesario, lo que resta precisión a la 
estimación de los parámetros. Es decir, los intervalos de confianza tienden a ser más grandes 
de lo necesario. 


. Para detectar los errores de especificación ecuacional consideramos diversas pruebas, como: 


1) examen de residuos, 2) estadístico d de Durbin-Watson, 3) Prueba RESET de Ramsey y 
4) prueba del multiplicador de Lagrange. 


. Una clase especial de error de especificación son los errores de medición en los valores de la 


variable regresada y de las regresoras. Si hay errores de medición sólo en la variable regre- 
sada, los estimadores de MCO son insesgados y consistentes, pero menos eficientes. Si hay 
errores de medición en las regresoras, los estimadores de MCO son sesgados e inconsistentes. 


. Aunque se detecten o sospeche de errores de medición, a menudo las medidas correctivas no 


son fáciles. Las variables instrumentales o representantes son teóricamente atractivas, pero 
no siempre prácticas. Por tanto, es muy importante en la vida real que el investigador tenga 
cuidado al establecer las fuentes de su información, al conocer la forma en que se obtuvo, 
sus definiciones, etc. La información recolectada por agencias oficiales suele presentarse con 
diversas notas al pie y el investigador debe advertir al lector de su existencia. 


. Los errores de una mala especificación del modelo pueden ser tan graves como los errores 


de especificación ecuacionales. En particular, distinguimos entre modelos anidados y no 
anidados. Para decidir el modelo apropiado analizamos la prueba F anidada, o incluyente, 
así como la prueba J de Davidson-MacKinnon, y señalamos las limitaciones de cada una. 


. Al elegir un modelo empírico en la práctica, los investigadores utilizan una variedad de crite- 


rios, de los cuales analizamos algunos, como los de información de Akaike y el de Schwarz, 
el criterio C, de Mallows y el pronóstico x. Estudiamos las ventajas y desventajas de estos 
criterios y también advertimos al lector que no eran absolutos, sino complementarios de un 
análisis de especificación cuidadoso. 


También analizamos estos temas adicionales: 1) valores atípicos, apalancamientos e influen- 
cias, 2) mínimos cuadrados recursivos y 3) prueba de la falla de predicción de Chow. Exami- 
namos el papel de cada uno en el trabajo aplicado. 


Analizamos brevemente dos casos especiales, a saber, la no normalidad del término de error 
estocástico y las regresoras aleatorias, y la función de la teoría de muestras grandes, o asin- 
tóticas, en situaciones en que no se pueden establecer las propiedades de muestras pequeñas, 
O finitas, de los estimadores de MCO. 
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12. Concluimos con el estudio de los “diez mandamientos de la econometría aplicada”, de Peter 
Kennedy. La idea es exigir al investigador que trascienda los aspectos puramente técnicos de 
la econometría. 


EJERCICIOS Preguntas 


13.1. Consulte la función de demanda de pollos estimada en la ecuación (8.6.23). Conside- 
rando los atributos de un buen modelo analizados en la sección 13.1, ¿puede decir que 
esta función de demanda está especificada “correctamente”? 


13.2. Suponga que el verdadero modelo es 
Y; = BIX: + Ui (1) 


pero, en lugar de especificar esta regresión a través del origen, especifica el modelo usual 
con presencia del intercepto: 


Y, =0)+01X; + v; (2) 


Evalúe las consecuencias de este error de especificación. 


13.3. Continúe con el ejercicio 13.2, pero suponga que el modelo (2) es el verdadero. Analice 
las consecuencias de ajustar el modelo mal especificado (1). 


13.4. Suponga que el “verdadero” modelo es 
Y, = Bi + P2Xo; + ur (1) 


pero añadimos una variable “irrelevante”, X3, al modelo (irrelevante en el sentido de que 
el verdadero coeficiente $3 que acompaña a la variable X; es cero) y estime 


Y, = B1+ B2Xo; + B3X3: + vi (2) 


a) R? y R? ajustada para el modelo (2) serían más grandes que las del modelo (1)? 
b) ¿Las estimaciones de 6, y f2 obtenidas de (2) son insesgadas? 
c) ¿La inclusión de la variable “irrelevante” X3 afecta las varianzas de Br y B22 


13.5. Considere la siguiente función de producción (Cobb-Douglas) “verdadera”: 
ln Y; = œo +09 In Liy; +07 ln La; + 03 ln K; + ui 


donde Y = producción 
Lı = trabajo contenido en la producción 
L, = trabajo no contenido en la producción 
K = capital 


Pero suponga que la regresión realmente utilizada en la investigación empírica es 
InY, =P0+ ea ibng + f21nK; + u; 


Conforme al supuesto de que tiene información de corte transversal sobre las variables 

relevantes, 

a) ¿Será E(B1) =01 y E(B2) = 03? 

b) Si se sabe que £, es un insumo irrelevante en la función de producción, ¿aún es válida 
la respuesta en a)? Muestre las derivaciones necesarias. 


13.6. Consulte las ecuaciones (13.3.4) y (13.3.5). Como se ve, &2, aunque sesgada, tiene una 
varianza menor que f2, que es insesgada. ¿Cómo decidiría respecto de un intercambio de 
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157 


13.8. 


13.9. 


un sesgo por una varianza pequeña? Sugerencia: El ECM (error cuadrático medio) para 
los dos estimadores se expresa como 


ECM(á») = e 2o + B3b3, 


= varianza muestral + sesgo al cuadrado 
ECM(B2) =0*/P7x3(1=r2s) 


Respecto de ECM, véase el apéndice A. 

Muestre que el £ estimado de (13.5.1) o (13.5.3) constituye una estimación insesgada del 
verdadero £. 

Según la hipótesis de ingreso permanente de Friedman, podemos escribir 


Y! =0+B8X (1) 


donde Y“ = gasto de consumo “permanente” y X? = ingreso “permanente”. En lugar de 
las variables “permanentes”, observamos 


Y, = Y + u; 
NSE +1 
donde Y; y X; son las cantidades observables o mensurables, y donde u; y v; son los errores 


de medición en Y* y X*, respectivamente. 
Con las cantidades observables, escribimos la función de consumo como 


Y, = æ + P(X: — vi) + ui 
= 0737 pA Fla = (0%) (2) 


Si suponemos que 1) E(u;) = E(v¡) = 0, 2) var (u¡) = 0? y var (vi) = of, 3) cov(¥*, u;) = 
0, cov(X7, vi) = 0, y 4) cov(u;, X¥) = cov(v;, Y) = cov(u;, vi) = 0, demuestre que, en 
muestras grandes, el £ estimado de (2) se expresa como 


B 


07/05») 


a) ¿Qué puede decir sobre la naturaleza del sesgo en $2 


plím ($) = el 


b) Si el tamaño de la muestra aumenta indefinidamente, ¿tenderá el $ estimado a igualar 
el £ verdadero? 


Modelo de asignación de precios de activos de capital. El modelo de asignación de pre- 
cios de activos de capital (CAPM) de la teoría de inversión moderna postula la siguiente 
relación entre la tasa de rendimiento promedio de un valor (una acción común), medida 
durante un determinado periodo, y la volatilidad del título, relación denominada coefi- 
ciente Beta (la volatilidad es una medida del riesgo): 


Ri = æ; +08) + ui (1) 


donde R; = tasa de rendimiento promedio del valor i 
Bi = coeficiente Beta verdadero del valor i 
u; = término de perturbación estocástico 


La verdadera f; no es directamente observable pero se mide de la siguiente manera: 


Fit = Q1 + brm, =F 6; (2) 
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donde r; = tasa de rendimiento del valor i durante el tiempo + 
Fmt = tasa de rendimiento del mercado durante el tiempo f (esta tasa es la tasa de 
rendimiento sobre algún índice general del mercado, como el índice S&P 
de valores industriales) 
e, = término de residuos 


y donde f£* es una estimación del “verdadero” coeficiente beta. En la práctica, por consi- 
guiente, en lugar de estimar (1), se estima 


Ri = a; + œ(6*) + ui (3) 


donde las $ se obtienen de la regresión (2). Pero, como las $; son estimadas, la relación 
entre la verdadera $ y f* se escribe así 


Bf = Bi +1; (4) 
donde v; se denomina error de medición. 


a) ¿Cuál será el efecto de este error de medición sobre la estimación de «2? 


b) ¿El œ estimado de (3) proporcionará una estimación insesgada del verdadero «>? 
De no ser así, ¿es ésta una estimación consistente de œ2? De no ser así, ¿qué medidas 
¿ de 
correctivas sugiere? 


13.10. Considere el modelo 
a = i T (¿da ar O (1) 


Para averiguar si este modelo está mal especificado porque omite la variable X3, decide 
efectuar la regresión de los residuos obtenidos del modelo (1) sólo sobre la variable X3 
(Vota: Hay un intercepto en esta regresión.) La prueba del multiplicador de Lagrange 
(ML), sin embargo, requiere la regresión de los residuos de (1) sobre X2, X3 y una cons- 
tante. ¿Por qué es probable que su procedimiento sea inapropiado?* 


13.11. Considere el modelo 
Y, = pı + 2X7 + ui 
En la práctica, medimos X? mediante X; de manera que 
a) XA=X +5 
b) X,=3X 
c) X¡= (X7 + e), donde e; es un término puramente aleatorio con las propiedades usuales. 
¿Cuál será el efecto de estos errores de medición sobre las estimaciones de los verdaderos 
Bi y B2? 
13.12. Consulte las ecuaciones de regresión (13.3.1) y (13.3.2). En forma similar a (13.3.3), 
demuestre que 
E(61) = Bi + B3(X3 — b32X2) 
donde b32 es el coeficiente de pendiente en la regresión de la variable omitida X3 sobre la 
variable incluida A». 


13.13. Evalúe de manera crítica el siguiente punto de vista, de Leamer:? 


*Véase Maddala, op. cit., p. 477. 


Y Edward E. Leamer, Specification Searches: Ad Hoc Inference with Nonexperimental Data, John Wiley & Sons, 
Nueva York, 1978, p. vi. 
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Mi interés en la metaestadística [es decir, en la teoría de la inferencia obtenida realmente de 
los datos] surge de mis observaciones del trabajo de los economistas. La opinión de que la 
teoría econométrica es irrelevante la sostiene una enorme y vergonzosa cantidad de profe- 
sionales de la economía. Es de esperarse que el enorme abismo entre la teoría y la práctica 
de la econometría provoque tensiones profesionales. De hecho, un balance ecuánime permea 
nuestras publicaciones y nuestras reuniones. Nos dividimos cómodamente en un sacerdocio 
célibe de teóricos estadísticos, por una parte, y una legión de incorregibles pecadores ana- 
listas de datos, por otra. Los sacerdotes tienen el poder de elaborar listas de pecados y son 
reverenciados por los talentos especiales que ostentan. No se espera que los pecadores dejen 
de pecar, sólo se necesita que confiesen sus errores públicamente. 


13.14. Evalúe la siguiente afirmación de Henry Theil:* 


En el actual nivel técnico, el procedimiento más sensible es interpretar los coeficientes de 
confianza y los límites de significancia de manera liberal, cuando los intervalos de confianza 
y los estadísticos de prueba se calculan a partir de la regresión final de una estrategia de 
regresión, en forma convencional. Es decir, un coeficiente a 95% de confianza en realidad 
puede ser un coeficiente a 80% de confianza, y un nivel de significancia de 1% de en reali- 
dad puede ser de 10 por ciento. 


13.15. Al comentar la metodología econométrica practicada en la década de 1950 y principios 
de la siguiente, Blaug expresó:* 
. . . gran parte de ésta [la investigación empírica] se asemeja a jugar tenis con la red abajo; en 
lugar de refutar las predicciones que pueden probarse, los economistas modernos con dema- 
siada frecuencia se contentan con demostrar que el mundo real se ajusta a sus predicciones, 
con lo que remplazan así la falsificación [al estilo Popper], la cual es complicada, con la 
verificación, que es muy sencilla. 


¿Está de acuerdo con lo anterior? Quizá desee consultar la obra de Blaug para conocer 
más sus puntos de vista. 

13.16. De acuerdo con Blaug, “No hay lógica para la prueba, pero sí la hay en la refutación”.* 
¿Qué quiso decir? 

13.17. Consulte el modelo de St. Louis analizado en el texto. Tenga en cuenta los problemas re- 
lacionados con la prueba F anidada y evalúe de manera crítica los resultados presentados 
en la regresión (13.8.4). 


13.18. Suponga que el modelo verdadero es 
Y; = pı + B2X + PX? + B3X] + ui 
pero estima 
Y, =01 + %2X; + vi 


Si utiliza las observaciones de Y en X = —3, —2, —1, 0, 1, 2, 3, y estima el modelo “in- 
correcto”, ¿qué sesgo se obtendrá en estas estimaciones?’ 

13.19. Para saber si la variable X A pertenece al modelo Y; = 6, + 2X; + u;, la prueba RESET 
de Ramsey estimaría el modelo lineal para obtener la estimación de los valores Y; de 
este modelo [es decir, Y, = Bi + ÊX, después estimaría el modelo Y; = a, + &2X; + 
03 ye + v; y luego probaría la significancia de 3. Demuestre que si 43 resulta estadísti- 
camente significativa en la ecuación anterior (RESET), equivale a estimar el siguiente 


* Henry Theil, Principles of Econometrics, John Wiley & Sons, Nueva York, 1971, pp. 605-606. 


t M. Blaug, The Methodology of Economics. Or How Economists Explain, Cambridge University Press, Nueva 
York, 1980, p. 256. 


t Ibid., p. 14. 
$ Adaptado de G.A.F., Linear Regression Analysis, John Wiley € Sons, Nueva York, 1977, p. 176. 
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modelo de manera directa: Y; = B¡ + B2X; + px? + u;i. (Sugerencia: Sustituya por Y, 
en la regresión RESET. )* 
13.20. Fundamente con argumentos si los siguientes enunciados son verdaderos o falsos.? 
a) Una observación puede ser influyente pero no ser un valor atípico. 
b) Una observación puede ser un valor atípico, pero no ser influyente. 
c) Una observación puede ser un valor atípico e influyente. 


d) Si el modelo Y; = 61 + 2X; + BA? + üi B3 resulta estadísticamente significativo, 
se debe conservar el término lineal X; aunque 6) sea estadísticamente insignificante. 


e) Si estima el modelo Y; = Bi + 2X2; + B343; + ui o Y; =01 + Box; + Bax3 + ui 
mediante MCO, la línea de regresión estimada es la misma, donde (Xz; — X2) y 
x3; = (43; — X3). 


Ejercicios empíricos 
13.21. Utilice la información de la demanda de pollos del ejercicio 7.19. Suponga que la verda- 
dera función de demanda es 
ln Y, = B1 + p2 1n Xz: + 3 ln Xy, + b6 ln Xor + u: (1) 
pero considera la siguiente función de demanda: 
ln Y, = 41 + 0% ln Xz; + &3 ln X3, + v, (2) 


donde Y = consumo de pollos per capita (en libras) 
X> = ingreso real disponible per capita 
X3 = precio real de los pollos al menudeo 
X6 = precio real compuesto de los sustitutos del pollo 
a) Realice las pruebas RESET y ML de errores de especificación, suponiendo que la 
función de demanda (1) dada es la verdadera. 


b) Suponga que Bs en (1) resulta estadísticamente no significativa. ¿Indica esto que no 
hay error de especificación si se ajusta (2) a la información? 


c) Si B6 resulta no significativa, ¿indica eso que no se debe introducir el precio de uno o 
más productos sustitutos como argumento en la función de demanda? 
13.22. Continúe con el ejercicio 13.21. Estrictamente por razones pedagógicas, suponga que el 
modelo (2) es la verdadera función de demanda. 


a) Si ahora estimamos el modelo (1), ¿qué tipo de error de especificación se comete en 
esta instancia? 


b) ¿Cuáles son las consecuencias teóricas de este error de especificación? Ilustre con la 
información disponible. 


13.23. El verdadero modelo es 
Y? = Pı + BX + ui (1) 
pero, debido a errores de medición, estima 
Y, =01 +09X; + vi (2) 


donde Y, = Y + s; y X; = X + wi, donde e; y w; son errores de medición. 


* Adaptado de Kerry Peterson, op. cit., pp. 184-185. 
Y Adaptado de Norman R. Draper y Harry Smith, op. cit., pp. 606-607. 
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13.24. 


13,23 


13.26. 


127. 


13.28. 


Con la información de la tabla 13.2, evalúe las consecuencias de estimar (2) en lugar 
del verdadero modelo (1). 
Experimento Monte Carlo: Diez personas percibieron el siguiente ingreso permanen- 
te semanal: $200, 220, 240, 260, 280, 300, 320, 340, 380 y 400. El consumo perma- 
nente (Y;*) estuvo relacionado con el ingreso permanente, X¥, así 


Y =0.8X1 (1) 


Cada individuo tuvo un ingreso transitorio igual a 100 veces un número aleatorio u;, ob- 

tenido de una población normal con media = 0 y ø? = 1 (es decir, una variable normal 

estandarizada). Suponga que no hay un componente transitorio en el consumo. Así, el 
consumo medido y el consumo permanente son los mismos. 

a) Seleccione 10 números aleatorios de una población normal con media cero y varianza 
unitaria, y obtenga 10 números para el ingreso medido X;( = X* + 1004). 

b) Efectúe la regresión del consumo permanente (= medido) sobre el ingreso medido 
con la información obtenida en a) y compare los resultados con los que aparecen en 
(1). A priori, el intercepto debe ser cero (¿por qué?) ¿Es ése el caso? ¿Por qué? 

c) Repita a) 100 veces, obtenga 100 regresiones como las de b) y compare los resultados 
con la verdadera regresión (1). ¿Qué conclusiones generales obtiene? 


Consulte el ejercicio 8.26. Con las definiciones de las variables dadas ahí, considere los 
dos modelos siguientes para explicar Y: 


Modelo A: Y, =01 + 0X3, + 03 X4, + 04X6; + ur 
Modelo B: Y, = B1 + B2X2 + P3Xst + P4X6t + us 


Con la prueba F anidada, ¿cómo elegiría alguno de los dos modelos? 


Continúe con el ejercicio 13.25. Con la prueba J, ¿cómo escogería alguno de los dos 

modelos? 

Consulte el ejercicio 7.19, que analiza la demanda de pollo en Estados Unidos. Ahí se dan 

cinco modelos. 

a) ¿Cuál es la diferencia entre el modelo 1 y el 2? Si el modelo 2 es correcto y estima el 
modelo 1, ¿qué tipo de error comete? ¿Qué pruebas aplicaría: para el error de espe- 
cificación de ecuación, o para el error de selección de modelo? Muestre los cálculos 
necesarios. 


b) Entre los modelos 1 y 5, ¿cuál elegiría? ¿Qué prueba(s) aplicaría(n) y por qué? 
Consulte la tabla 8.11, que proporciona información sobre los ahorros personales (Y) y 


el ingreso personal disponible (X) de 1970 a 2005. Ahora considere los siguientes mo- 
delos: 


Modelo A: Y, =0/+009X,+03X,_1 + u: 
Modelo B: Y, = i + 2X; + B3Y,-1 + ur 


¿Cómo eligiría alguno de los dos modelos? Establezca con claridad el (los) procedimien- 
to(s) de prueba que utilice y muestre todos los cálculos. Suponga que se cuestiona que la 
variable tasa de interés pertenece a la función ahorro: ¿cómo probaría eso? Recopile los 
datos de la tasa de interés para bonos del tesoro a tres meses como un representante de 
los intereses y justifique su respuesta. 


* Adaptado de Christopher Dougherty, Introduction to Econometrics, Oxford University Press, Nueva York, 
1992, pp. 253-256. 
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13.29. Utilice los datos del ejercicio 13.28. Para familiarizarse con los mínimos cuadrados recur- 
sivos, calcule las funciones ahorro de 1970-1981, 1970-1985, 1970-1990 y 1970-1995. 
Comente la estabilidad de los coeficientes estimados en las funciones ahorro. 
13.30. Continúe con el ejercicio 13.29, pero ahora use los datos actualizados de la tabla 8.10. 
a) Suponga que estima la función de ahorro de 1970-1981. Con los parámetros así 
estimados y los datos del ingreso personal disponible de 1982-2000, estime el 
ahorro pronosticado para el segundo periodo y use la prueba de falla de predicción 
de Chow para averiguar si se rechaza la hipótesis de que la función de ahorro entre los 
dos periodos no ha cambiado. 

b 


= 


Ahora estime la función de ahorro de los datos de 2000-2005. Compare los resultados 
con la función correspondiente al periodo 1982-2000 mediante el mismo método que 
en el inciso anterior (la prueba de falla de predicción de Chow). ¿Hay algún cambio 
significativo en la función de ahorro entre los dos periodos? 


13.31. Omisión de una variable en el modelo de regresión con K variables. Consulte la ecuación 
(13.3.3), que muestra el sesgo por omitir la variable X3 del modelo Y; = 61 + b2X2i + 
B3X3; + ui. Esto se generaliza de la siguiente forma: en el modelo con k variables, Y; = 
Bı + b2X2i + + BrXxi + ui, suponga que omitimos la variable Xy. Entonces, es po- 
sible demostrar que el sesgo de la variable omitida que corresponde al coeficiente de la 
pendiente para la variable incluida X; es: 


EC) = Bi + prb  j=2,3,...,(k—1) 


donde bz; es el coeficiente de la pendiente (parcial) de X; en la regresión auxiliar de la 
variable excluida Xy sobre todas las variables explicativas incluidas en el modelo.* 

Consulte el ejercicio 13.21. Obtenga el sesgo de los coeficientes en la ecuación (1) si 
excluimos la variable In X¿ del modelo. ¿Esta exclusión es grave? Muestre los cálculos 
necesarios. 


13A.1 Prueba de que E(b12) = B2 + ßb3b32 
[ecuación (13.3.3)] 


En la forma de desviación, el modelo de regresión de población con tres variables se expresa 
Yi = Boxa + P3x3 + (u; — ü) (1) 


Si primero se multiplica por x2 y luego por x3, las ecuaciones normales usuales son: 


Dn = [0 Da + B3 Do ai Nau; =) (2) 
Dea = f2 Y xa + B3 Ns ci Nu -u) (3) 


Al dividir (2) entre X- x2, en ambos lados, obtenemos 


DE NR m Y xa =a) 


= B2 + B3 
2, T 2, Xx; y D 


(4 


* Lo anterior se generaliza al caso en el que más de una variable X relevante esté excluida del modelo. Sobre 
este tema, véase Chandan Mukherjee et al., op. cit., p. 215. 
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Ahora, si recuerda que 


Y Yi xo; 
b12= J 
2x; 
Poo 
b32 = 3 
2x; 


la ecuación (4) se expresa como 


DoC =D) 


Ma = b 5 
12 = f2 + B3b32 + 2 (5) 
Si toma el valor esperado de (5) en ambos lados, obtenemos finalmente 
E(b12) = B2 + B3b32 (6) 


donde se aprovecha que: a) para una muestra dada, b32 es una cantidad fija conocida, b) 6, y 3 son cons- 
tantes y c) u; no está correlacionada con Xz; (ni tampoco con X3;). 


13A.2 Consecuencias de la inclusión de una variable 
irrelevante: propiedad de insesgamiento 


Para el verdadero modelo (13.3.6), tenemos 


7 (1) 


y sabemos que es insesgado. 
Para el modelo (13.3.7) obtenemos 


y - E)E) -E s) (£2) z 
Ea Ea- (Ex) 


Ahora el verdadero modelo en forma de desviación es 


yi = Bax2 + (u; — ü) (3) 
Al sustituir para y; de (3) en (2) y simplificar, obtenemos 
2 2 a 
o a. 


E(â2) = Ba 2 
MAS (Zx) 


(4) 


= f 


es decir, & permanece insesgado. 
También obtenemos 


a EED- EE) m 
E Da- (Ex) 
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Al sustituir para y; de (3) en (5) y simplificar, obtenemos 


(Eu) (2) -(22)(2+)] 


E(03)= B 
Í DA (Lx) (6) 


=D) 


el cual es su valor en el verdadero modelo, pues X está ausente de dicho modelo. 


13A.3 Prueba de la ecuación (13.5.10) 


Tenemos 
Y =0+BX +0 (1) 
Ky = A a o (2) 


Por consiguiente, en la forma de desviación, obtenemos 


Yi = Bx¡ + (ui — u) €) 
Xx; =xj + (w;—w) (4) 
Ahora, cuando utilizamos 
Y, =a + Xi + ui (5) 
obtenemos 
p- 


_ È 18x* + (u— )lix* + (w - w)] 
De o= w 


con (3) y (4) 


E BH) xP +E x*w- w) + Y x*lu — 8) + Du — i)w- w) 
E Y 12 4 2) x(w- w) +} (w— w)? 


Como no podemos tomar la esperanza de esta expresión porque la esperanza de la razón de dos variables 
no es igual a la razón de sus esperanzas (nota: el operador de esperanzas E es un operador lineal), primero 
dividimos cada término del numerador y del denominador entre n y obtenemos la probabilidad del límite, 
plím (véanse los detalles de plím en el apéndice A), de 


(1/m) [8 + BY x*w- w) + )x*(u — 8) + Du — ulw- w)] 
(1/1) [E x2 +29 x*(w — w) + DO(w-— w)?] 


Ahora, la probabilidad del límite de la razón de dos variables es la razón de sus probabilidades del límite. Al 
aplicar esta regla y tomar el plím de cada término, obtenemos 


Boy» 


oy +o 


B= 


plím ĝ = 
donde DS y o? son las varianzas de X* y w a medida que el tamaño de la muestra aumenta indefinida- 
mente y donde aprovechamos que, a medida que el tamaño de la muestra aumenta indefinidamente, no hay 


correlación entre los errores u y w ni entre ellos y la verdadera X*. De la expresión anterior, finalmente 
obtenemos 


plimf$ = £ 


que es el resultado requerido. 
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13A.4 Prueba de la ecuación (13.6.2) 


Como no hay término de intercepto en el modelo, la estimación para «œ, de acuerdo con la fórmula para la 
regresión a través del origen, es como sigue: 


Dam 
DA 
Al sustituir por Y del verdadero modelo (13.2.8), obtenemos 


A Xı(BXiui) 
a=2 az 


La teoría estadística muestra que si In u; ~ N(0, 0?), entonces 


= 


(1) 


Xi 
NX 


(2) 


ui = log normal Lo e” (e"=1)] (3) 


Por tanto, 


Xu 


E(4)= PE aa 


(ja ++ XŽu apesar Xu) 
E 


dl y 


2 
219 D X; 0?/2 
= Be / 7 = pe 
DA 
donde se aprovecha que las X son no estadísticas y cada u; tiene un valor esperado de e 
Como E(4) Æ f, å es un estimador sesgado de £. 


0?/2 
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En la parte 1 introdujimos el modelo clásico de regresión lineal con todos sus supuestos. En la 
parte 2 examinamos en detalle las consecuencias de no satisfacer uno o más supuestos y lo que 
puede hacerse al respecto. En la parte 3 estudiaremos algunas técnicas econométricas selec- 
cionadas pero muy comunes. En particular, analizaremos estos temas: 1) modelos de regresión 
no lineales en los parámetros, 2) modelos de regresión con respuesta cualitativa, 3) modelos de 
regresión con datos de paneles y 4) modelos econométricos dinámicos. 

En el capítulo 14 consideramos modelos intrínsecamente no lineales en los parámetros. Con 
la actual disponibilidad de paquetes de software, ya no es muy dificil estimar tales modelos. Aun- 
que el fundamento matemático puede ser complejo para ciertos lectores, las ideas básicas de los 
modelos de regresión no lineales en los parámetros se comprenden por intuición. Con ejemplos 
adecuados, este capítulo muestra cómo estimar e interpretar estos modelos. 

En el capítulo 15 analizaremos los modelos de regresión en los que la variable dependiente 
es cualitativa por naturaleza. Este capítulo, por tanto, complementa al 9, en el cual estudiamos 
los modelos en que la naturaleza de las variables explicativas era cualitativa. La idea central de 
este capítulo es el desarrollo de modelos con la variable regresada del tipo sí o no. Como los mí- 
nimos cuadrados ordinarios (MCO) plantean diversos problemas para estimar tales modelos, se 
han elaborado diversas opciones. En este capítulo examinamos dos de ellas, a saber: el modelo 
logit y el modelo probit. En este capítulo también analizamos diversas variantes de los modelos 
con respuesta cualitativa, como el modelo tobit y el modelo de regresión de Poisson. Además, 
estudiaremos brevemente varias extensiones de los modelos con respuesta cualitativa, como los 
modelos probit ordenado, logit ordenado y logit multinomial. 

En el capítulo 16 veremos los modelos de regresión con datos de paneles. Tales modelos 
combinan las series de tiempo y las observaciones transversales. Aunque al combinar las men- 
cionadas observaciones se incrementa el tamaño de la muestra, la estimación de los modelos 
de regresión con datos de paneles plantea diversos retos. En este capítulo estudiaremos sólo lo 
esencial de estos modelos y guiaremos al lector hacia los recursos adecuados para un estudio 
posterior. 

En el capítulo 17 consideraremos los modelos de regresión con valores de las variables ex- 
plicativas para el periodo actual, lo mismo que para periodos pasados o rezagados, además de 
modelos que incluyen uno o varios valores rezagados de la variable dependiente como una de las 
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variables explicativas. Estos modelos se denominan, respectivamente, de rezago distribuido y 
autorregresivos. Aunque tales modelos son muy útiles en la econometría empírica, su aplicación 
conlleva algunos problemas especiales de estimación, pues violan uno o más supuestos del mo- 
delo clásico de regresión lineal. Consideraremos estos problemas especiales en el contexto de los 
modelos de Koyck, de expectativas adaptables (EA) y de ajuste parcial. También abordaremos las 
críticas contra el modelo EA por parte de los defensores de la llamada escuela de expectati- 
vas racionales (ER). 


Capítulo l A 


Modelos de regresión 
no lineales 


Este libro se centra, sobre todo, en los modelos de regresión lineal; es decir, modelos lineales en 
los parámetros o que pueden transformarse para que lo sean. Sin embargo, en ciertas ocasiones, 
por razones teóricas o empíricas, debemos considerar modelos que no son lineales en los paráme- 
tros.! En este capítulo analizaremos tales modelos y estudiaremos sus características especiales. 


14.1 Modelos de regresión intrínsecamente lineales 
e intrínsecamente no lineales 


Cuando comenzamos el análisis de los modelos de regresión lineal en el capítulo 2, establecimos 
que la principal preocupación en este libro son sobre todo los modelos lineales en los parámetros 
pero que pueden ser o no lineales en las variables. Si consulta la tabla 2.3, verá que un modelo 
lineal en los parámetros y en las variables es un modelo de regresión lineal, de igual forma que 
lo es un modelo lineal en los parámetros pero no lineal en las variables. Por otro lado, si un mo- 
delo es no lineal en los parámetros, se trata de un modelo de regresión no lineal (en los paráme- 
tros), sin importar que las variables de tal modelo sean lineales o no. 

Sin embargo, debe tener cuidado, pues algunos modelos pueden parecer no lineales en los 
parámetros pero ser inherente o intrínsecamente lineales, debido a que con una transformación 
adecuada pueden convertirse en modelos de regresión lineales en los parámetros. Pero si dichos 
modelos no pueden linealizarse en los parámetros, se les conoce como modelos de regresión 
intrínsecamente no lineales. 4 partir de aquí, cuando hablemos de modelos de regresión no 
lineales, se trata de modelos intrínsecamente no lineales. Por brevedad los denominaremos 
MRNL. 

Para que resulte clara la distinción entre ambos modelos, revisemos los ejercicios 2.6 y 2.7. 
En el primero, los modelos a, b, e y e son modelos de regresión lineales porque son lineales en 
todos sus parámetros. El modelo d es mixto, pues £z es lineal, pero no ln £1. No obstante, si œ = 
In £1, entonces este modelo es lineal en « y 6. 

En el ejercicio 2.7, los modelos d y e son intrínsecamente no lineales porque no hay una 
forma simple para linealizarlos. El modelo e es obviamente una regresión lineal. ¿Y los mode- 


1 Observamos en el capítulo 4 que, según el supuesto del término de error normalmente distribuido, los 
estimadores de MCO no sólo son MELI, sino también MEI (mejor estimador insesgado) en toda la clase de 
estimadores, lineales o no lineales. Pero si eliminamos el supuesto de normalidad, como señalan Davidson 
y MacKinnon, se pueden obtener estimadores no lineales y/o sesgados tal vez más adecuados que los esti- 
madores de MCO. Véase Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, 
Oxford University Press, Nueva York, 1993, p. 161. 
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los a y b? Al tomar los logaritmos en ambos miembros de a obtenemos In Y; = 61 + B24; + us, 
que es lineal en los parámetros. Por consiguiente, el modelo a es intrínsecamente un modelo de 
regresión lineal. El modelo b es un ejemplo de una función de distribución (de probabilidad) 
logística, que estudiaremos en el capítulo 15. A primera vista, es un modelo de regresión no 
lineal, a saber, 


1=7; 
in Y ) = Bi + P2X; + ui (14.1.1) 


i 


Por consiguiente, el modelo b es intrínsecamente lineal: veremos la utilidad de los modelos como 
el (14.1.1) en el siguiente capítulo. 

Considere ahora la famosa función de producción Cobb-Douglas (C-D). Sea Y = produc- 
ción, X2 = insumo trabajo y X3 = insumo capital; expresaremos esta función de tres maneras: 


Y, = pı XÊ XB e" (14.1.2) 


In Y; = œ + Balon Xz; + B3 ln X3i + ui (14.1.2a) 


donde q = In 61. En consecuencia, con este formato, la función C-D es intrinsecamente lineal. 
Ahora considere esta versión de la función C-D: 


Y, = pı XË XË u; (14.1.3) 


In Y; = æ + b2 ln Xz; + 63 ln Xz; + lnu; (14.1.3a) 


donde q = ln £1. Este modelo también es lineal en sus parámetros. 

Pero ahora considere la siguiente versión de la función C-D: 

Y, =BXÉXÉ + u; (14.1.4) 

Como acabamos de notar, las versiones (14.1.2a) y (14.1.3a) de la función C-D son modelos de 
regresión intrínsecamente lineales en los parámetros, pero no hay forma de transformar (14.1.4) 
de manera que el modelo transformado sea lineal en los parámetros.? Por tanto, (14.1.4) es un 
modelo de regresión intrínsecamente no lineal. 

Otra función muy conocida, pero intrínsecamente no lineal, es la función de producción con 
elasticidad constante de sustitución (ECS), que tiene a la función de producción Cobb-Douglas 
como caso especial. La producción ECS adopta la siguiente forma: 


Y, =A[sk *+(1-8)1,*] (14.1.5) 


donde Y = producción, K = insumo capital, L = insumo trabajo, 4 = parámetro de escala, 
$ = parámetro de distribución (0 < 3 < 1) y B= parámetro de sustitución (8 > —1).3 Sin impor- 
tar la forma en que introduzca el término de error estocástico u; en esta función producción, no 
hay manera de cambiarla a un modelo de regresión lineal (en los parámetros). Es intrínsecamente 
un modelo de regresión no lineal. 


2 Si intenta transformar mediante logaritmos el modelo, no será correcto, pues In (A + B) Æ In A + In B. 


3 Para las propiedades de la función producción ECS, véase Michael D. Intriligator, Ronald Bodkin y Cheng 
Hsiao, Econometric Models, Techniques, and Applications, 2a. ed., Prentice Hall, 1996, pp. 294-295. 
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14.2 Estimación de modelos de regresión lineales y no lineales 


Para apreciar la diferencia al estimar modelos de regresión lineales y no lineales, considere los 
dos modelos siguientes: 


Y; = fı + BA; + üi (14.2.1) 
Y; = Breb% + ui (14.2.2) 


A estas alturas ya sabe que (14.2.1) es un modelo de regresión lineal, en tanto que (14.2.2) es 
no lineal. La regresión (14.2.2) se conoce como modelo de regresión exponencial, y a menudo 
se utiliza para medir el crecimiento de una variable, como la población, el PIB o la oferta de 
dinero. 

Suponga que pretendemos estimar los parámetros de los dos modelos mediante MCO. En ese 
método reducimos la suma de cuadrados residual (SCR), que para el modelo (14.2.1) es: 


YN = Y (Y - Ê- ÊX) (14.2.3) 


donde, como siempre, ĝi y $2 son los estimadores de MCO de las verdaderas p. Al diferenciar la 
expresión anterior respecto de las dos incógnitas obtenemos las ecuaciones normales mostra- 
das en (3.1.4) y (3.1.5). Al resolver ambas de manera simultánea obtenemos los estimadores de 
MCO dados en las ecuaciones (3.1.6) y (3.1.7). Observe con cuidado que en dichas ecuaciones 
las incógnitas (las £) están en el miembro izquierdo y los datos conocidos (X y Y) en el derecho. 
Como resultado, obtenemos soluciones explícitas para ambas incógnitas en términos de los datos 
dados. 

Ahora vea lo que pasa si tratamos de reducir la SCR de (14.2.2). Como vimos en el apéndice 
14A, sección 14A.1, las ecuaciones normales correspondientes a (3.1.4) y (3.1.5) son las siguien- 
tes: 


y Y eX Z pieP* (14.2.4) 
PXP = G Y Xh (14.2.5) 


A diferencia de las ecuaciones normales para el modelo de regresión lineal, las ecuaciones nor- 
males para la regresión no lineal tienen incógnitas (las Ê) en ambos miembros de las ecuaciones. 
Como consecuencia, no podemos obtener soluciones explícitas de las incógnitas en términos de 
las cantidades conocidas. Para decirlo de otra forma, las incógnitas están expresadas en términos 
de ellas mismas y de los datos. Por tanto, aunque apliquemos el método de los mínimos cuadra- 
dos para estimar los parámetros de los modelos de regresión no lineal, no obtendremos solucio- 
nes explícitas de las incógnitas. A propósito, los MCO aplicados al modelo de regresión no lineal 
se conocen como mínimos cuadrados no lineales (MCNL). Por tanto, ¿cuál es la solución? Lo 
veremos en seguida. 


14.3 Estimación de modelos de regresión no lineales: 
método de ensayo y error 


Para establecer el contexto consideremos un ejemplo concreto. Los datos de la tabla 14.1 se refie- 
ren a las comisiones administrativas que un fondo mutualista líder en Estados Unidos paga a sus 
consultores de inversión por el manejo de sus bienes. Las comisiones dependen del valor neto de 
los bienes del fondo. Como se ve, mientras más alto sea el valor neto de los bienes, menores serán 
las comisiones por consultoría, lo cual aparece claramente en la figura 14.1. 
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TABLA 14.1 
Comisiones por consul- 
toría y tamaño de los 
activos 


FIGURA 14.1 
Relación entre la comi- 
sión por consultoría y los 
activos del fondo. 


Comisión, % Activos* 

1 0.520 0.5 

2 0.508 5.0 

3 0.484 10 

4 0.46 15 

5 0.4398 20 

6 0.4238 25 

7 0.4115 30 

8 0.402 35 

9 0.3944 40 
10 0.388 45 
11 0.3825 55 
12 0.3738 60 


* La columna Activos representa el valor neto del activo en miles 
de millones de dólares. 
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Para ver cómo se ajusta el modelo de regresión exponencial (14.2.2) a los datos de la tabla 
14.1, procedemos mediante ensayo y error. Suponga que al principio 61 = 0.45 y 62 = 0.01. Éstas 
son sólo conjeturas, a veces fundamentadas en la experiencia previa, el trabajo empírico anterior 
u obtenidas sólo mediante el ajuste de un modelo de regresión lineal, aunque quizá no resulte el 
apropiado. En esta etapa no hay que preocuparse por el origen de tales valores. 

Como conocemos los valores de £1 y £2, escribimos la ecuación (14.2.2) como: 


ui = Y, — bie” = Y, — 0.4500 01% (14.3.1) 


Por consiguiente, 


Xg = Y (Y, — 0.458001%)? (14.3.2) 


Como se conocen Y, X, 1 y b2, determinamos con facilidad la suma de cuadrados de los errores 
en (14.3.2).* Recuerde que, en MCO, el objetivo es calcular los valores de los parámetros des- 
conocidos que reduzcan lo más posible la suma de cuadrados de los errores. Esto sucede si los 


4 Observe que se conoce a Y” u? como la suma de cuadrados de los errores y no como la usual suma de cua- 
drados residual, pues se supone que se desconocen los valores de los parámetros. 


14.4 Métodos 
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valores estimados de Y del modelo están tan cerca como sea posible de los valores Y reales. Con 
los valores dados, obtenemos }` u? = 0.3044. Pero, ¿cómo sabemos si ésta es la menor suma de 
cuadrados de los errores que podemos obtener? ¿Qué sucede si elegimos otros valores para 61 y 
B2, por ejemplo, 0.50 y —0.01, respectivamente? Al repetir el procedimiento, obtenemos ahora 
Yu? = 0.0073. Obvio, esta suma de cuadrados de los errores es mucho más pequeña que la an- 
terior, a saber: 0.3044, Pero, ¿cómo sabemos que obtuvimos la suma de cuadrados de los errores 
más pequeña, y que si eligiéramos otro conjunto de valores para las 8 no obtendríamos otra suma 
de cuadrados de los errores? 

Como se ve, dicho proceso de ensayo y error, o iterativo, es sencillo. Y si se dispone de tiempo 
y paciencia infinitos, el proceso de ensayo y error quizá produzca a la larga valores de 61 y B2 
que tal vez garanticen la suma de cuadrados de los errores más pequeña. Pero surge la siguiente 
pregunta: ¿cómo llegamos de ($, = 0.45; B2 = 0.01) a (61 = 0.50; B2 = —0.1)? Es evidente que 
necesitamos una especie de algoritmo que indique la forma de ir de un conjunto de valores de las 
incógnitas a otro conjunto, antes de finalizar. Por fortuna, dichos algoritmos están disponibles, y 
los analizaremos en la siguiente sección. 


para estimar modelos de regresión no lineales 


Existen varios métodos, o algoritmos, para los MRNL: 1) búsqueda directa o método de ensayo 
y error, 2) optimización directa y 3) linealización iterativa.* 


Búsqueda directa o método de ensayo y error, o de libre derivación 


En la sección anterior vimos cómo funciona este método. A pesar de ser atractivo, porque se 
trabaja con la intuición y no requiere cálculo, como otros métodos, no es muy común. En primer 
lugar, si un MRNL contiene varios parámetros, el cálculo de este método se vuelve muy engo- 
rroso y pesado. Por ejemplo, si un MRNL implica 5 parámetros y 25 valores alternos para cada 
parámetro, habrá que calcular la suma de cuadrados de los errores (25) = 9 765 625 veces. En 
segundo lugar, no se garantiza que con el conjunto final de los valores de los parámetros selec- 
cionado necesariamente se obtendrá la suma de cuadrados de los errores mínima absoluta. En 
el lenguaje del cálculo, obtendría un mínimo local y no un mínimo absoluto. De hecho, ningún 
método garantiza un mínimo global. 


Optimización directa 

En la optimización directa se diferencia la suma de cuadrados de los errores respecto de cada 
coeficiente o parámetro desconocido, se iguala la ecuación resultante a cero y se resuelven las 
ecuaciones normales obtenidas de manera simultánea. Ya vimos esto en (14.2.4) y (14.2.5), pero, 
como se observa a partir de estas ecuaciones, no se pueden resolver explícita o analiticamente. 
Por consiguiente, se requiere alguna rutina iterativa; una de ellas se conoce como método de 
pasos descendente. No veremos los detalles técnicos de este método, pues son un cuanto com- 
plejos, pero el lector puede encontrarlos en las referencias. Al igual que el método de ensayo y 
error, el método de pasos descendente también implica la selección de valores iniciales de prueba 
para los parámetros desconocidos, pero luego procede de forma más sistemática que el de error 
y acierto, o el de ensayo y error. Una desventaja de este método es que puede converger a los 
valores finales de los parámetros de una forma demasiado lenta. 


5 El siguiente análisis se basa en gran medida en las siguientes fuentes: Robert S. Pindyck y Daniel L. Rubin- 
feld, Econometric Models and Economic Forecasts, 4a. ed., McGraw-Hill, 1998, cap. 10; Norman R. Draper y 

Harry Smith, Applied Regression Analysis, 3a. ed., John Wiley & Sons, 1998, cap. 24; Arthur S. Goldberger, 

A Course in Econometrics, Harvard University Press, 1991, cap. 29; Russell Davidson y James MacKinnon, op. 
cit., pp. 201-207; John Fox, Applied Regression Analysis, Linear Models, and Related Methods, Sage, 1997, pp. 
393-400, y Ronald Gallant, Nonlinear Statistical Models, John Wiley and Sons, 1987. 
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Método de linealización iterativa 


En este método se linealiza la ecuación no lineal alrededor de algunos valores iniciales de los 
parámetros. Luego, la ecuación linealizada se calcula mediante MCO y se ajustan los valores 
elegidos al principio. Con estos valores ajustados se vuelve a linealizar el modelo y de nuevo 
se calcula mediante MCO y se reajustan los valores estimados. Este proceso continúa hasta que 
no haya un cambio sustancial en los valores estimados respecto del último par de iteraciones. 
La técnica principal para linealizar una ecuación no lineal es la expansión de series de Taylor, 
tomada del cálculo. En el apéndice 14A, sección 14A.2, se ofrecen detalles muy generales de este 
método. La estimación del MRNL mediante la expansión de series de Taylor se sistematiza con 
dos algoritmos conocidos como método iterativo Gauss-Newton y método iterativo Newton- 
Raphson. En vista de que uno o ambos métodos ya están incorporados en diversos programas 
de computadora, y como un estudio de sus aspectos técnicos escapa al objetivo de esta obra, no 
necesitamos extendernos aquí en su análisis. En la siguiente sección veremos algunos ejemplos 
con dichos métodos. 


14.5 Ejemplos ilustrativos 


EJEMPLO 14.1 
Comisiones por 
consultoría de un 
fondo mutualista 


Consulte los datos de la tabla 14.1 y el MRNL (14.2.2). Mediante la rutina de regresión no 
lineal del paquete EViews 6, que se vale del método de linealización,? obtuvimos los siguientes 
resultados de la regresión; los coeficientes, sus errores estándar y sus valores t se dan en forma 
tabular: 


Variable Coeficiente Error estándar Valor t Valor p 


Intercepto 0.5089 0.0074 68.2246 0.0000 
Activo 0.0059 0.00048 -12.3150 0.0000 


R? = 0.9385 d = 0.3493 
A partir de estos resultados expresamos el modelo estimado como: 
Comisión; = 0.5089 Activo —0-0059 (14.5.1) 


Antes de analizar estos resultados hay que notar que si no se proporcionan los valores iniciales 
de los parámetros a fin de empezar el proceso de linealización, EViews lo hará. Le bastan cinco 
iteraciones a EViews para obtener los resultados mostrados en (14.5.1). No obstante, uno puede 
proporcionar sus propios valores iniciales para iniciar el proceso. A fin de demostrarlo, elegi- 
mos los valores iniciales para $1 = 0.45 y 2 = 0.01.Obtuvimos los mismos resultados que en 
(14.5.1), pero necesitamos ocho iteraciones. Es importante mencionar que se requerirán menos 
iteraciones si los valores iniciales no están muy distantes de los valores finales. En algunos casos 
pueden elegirse los valores iniciales de los parámetros tan sólo con una regresión por MCO de 
la regresada sobre la(s) regresadora(s), únicamente ignorando la no linealidad. Por ejemplo, con 
los datos de la tabla 14.1, si fuese a efectuar la regresión de las comisiones sobre los activos, la 
estimación por MCO de £; sería 0.5028 y el de £2 sería de -0.002, los cuales están mucho más 


é Hay otro método que a veces se utiliza —método Marquard— y que es un procedimiento intermedio 
entre el método de pasos descendente y el de linealización (o series de Taylor). El lector interesado puede 
consultar las referencias para conocer mayores detalles de dicho método. 

7 EViews proporciona tres métodos: el de la ruta ascendente cuadrática, el de Newton-Raphson y el de 


Berndt-Hall-Hall-Hausman. La opción por omisión es la ruta ascendente cuadrática, que es una variación 
del método de Newton-Raphson. 


EJEMPLO 14.1 
(continuación) 


Capítulo 14 Modelos de regresión no lineales 531 


cerca de los valores finales dados en (14.5.1). (Para los detalles técnicos consulte el apéndice 
14A, sección 144.3.) 

Ahora bien, respecto de las propiedades de los estimadores de MCNL, recuerde que en el 
caso de los modelos de regresión lineales con términos de error distribuidos normalmente, pu- 
dimos desarrollar procesos de inferencia exactos (es decir, pruebas de hipótesis) con las pruebas 
t, Fy ji cuadrada en muestras pequeñas y grandes. Por desgracia, no es el caso con los MRNL, 
aunque tengan términos de error distribuidos normalmente. Los estimadores de MCNL no están 
distribuidos normalmente, no son insesgados y no tienen varianza mínima en muestras pequeñas 
o finitas. Como resultado, no sirve la prueba t (para probar la significancia de un coeficiente 
individual) ni la F (para probar la significancia global de la regresión estimada), pues no puede 
obtenerse una estimación insesgada de la varianza del error o? a partir de los residuos estimados. 
Es más, los residuos (la diferencia entre los valores Y reales y los valores Y estimados obtenidos 
del MRNL) no necesariamente suman cero. La suma de SCE y SCR no necesariamente da como 
resultado la SCT; por tanto, R? = SCE/SCT puede no ser un estadístico descriptivo importante 
para tales modelos. No obstante, podemos calcular R? como: 


mm (14.5.2) 


donde Y = regresada y û; = Yi — Y ;, donde Y; son los valores Y estimados del MRNL (ajustado). 

En consecuencia, las inferencias respecto de los parámetros de la regresión en una regresión 
no lineal suelen basarse en la teoría de las muestras grandes, según la cual, cuando la muestra 
es grande, los estimadores de mínimos cuadrados y de máxima verosimilitud para modelos de 
regresión no lineal con términos de error normales están casi normalmente distribuidos y casi 
son insesgados, además de que casi tienen varianza mínima. Esta teoría de muestras grandes 
también aplica cuando los términos de error no están normalmente distribuidos.$ 

Así, en resumen, todos los procedimientos de inferencia en los MRNL son de muestras gran- 
des o asintóticos. Al retomar el ejemplo 14.1, los estadísticos t de (14.5.1) tienen significado 
sólo si se interpretan en el contexto de muestras grandes. En ese sentido, podemos decir que 
los coeficientes estimados mostrados en (14.5.1) son estadísticamente significativos en forma 
individual. Por supuesto, la muestra en el presente ejemplo es más bien pequeña. 

De nuevo con (14.5.1), ¿cómo calculamos la tasa de cambio de Y (= comisión) respecto de 
X (el tamaño de los activos)? Con las reglas básicas de las derivadas, el lector puede ver que la 
tasa de cambio de Y respecto de X es: 


= = Bi B2e%%* = (-0.0059(0.5089)e0:0059X (14.5.3) 


Como se observa, la tasa de cambio de la comisión depende del valor de los activos. Por ejem- 
plo, si X= 20 (millones), la tasa esperada de cambio en las comisiones cobradas se obtiene de 
(14.5.3), la cual resulta casi del -0.0031%. Por supuesto, esta respuesta cambia en función del 
valor X con que se calcule. Si se juzga con la R? como se calculó en (14.5.2), el valor R? igual 
a 0.9385 sugiere que el MRNL elegido se ajusta muy bien a los datos de la tabla 14.1. El va- 
lor Durbin-Watson estimado (igual a 0.3493) puede sugerir una autocorrelación o tal vez un 
error de especificación del modelo. Aunque existen procedimientos que se encargan de estos 
problemas, así como de la heteroscedasticidad en MRNL, no examinaremos esos temas aquí. El 
lector interesado puede consultar las referencias. 


8 John Neter, Michael H. Kutner, Christopher J. Nachtsheim y William Wasserman, Applied Regression Analysis, 
3a. ed., Irwin, pp. 548-549. 
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EJEMPLO 14.2 
Función de produc- 
ción Cobb-Douglas 
para la economía 
mexicana 


Consulte los datos proporcionados en el ejercicio 14.9 (tabla 14.3), referentes a la economía 
mexicana de 1955 a 1974. Verá que el MRNL dado en (14.1.4) se ajusta a los datos, en donde 
Y = producción, X2 = insumo trabajo y X3 = insumo capital. Con EViews 6 obtuvimos los siguien- 
tes resultados de regresión, después de 32 iteraciones. 


Variable Coeficiente Error estándar Valor t Valor p 
Intercepto 0.5292 0.2712 1.9511 0.0677 
Trabajo 0.1810 0.1412 1.2814 0.2173 
Capital 0.8827 0.0708 12.4658 0.0000 
R? = 0.9942 d= 0.2899 
Por tanto, la función de producción Cobb-Douglas estimada es: 
PIB, = 0.5292 Trabajo? "81% Capital?:8827 (14.5.4) 


Interpretada de manera asintótica, la ecuación muestra que en el modelo sólo el coeficiente del 
insumo capital es significativo. En el ejercicio 14.9 se pide al lector comparar estos resultados 
con los obtenidos en la función de producción Cobb-Douglas multiplicativa, como se dio en 
(14.1.2). 


EJEMPLO 14.3 
Crecimiento de la 
población de 
Estados Unidos, 
1970-2007 


FIGURA 14.2 


Población por año. 


La tabla del ejercicio 14.8 presenta datos sobre la población total de Estados Unidos de 1970 a 
2007. A menudo se mide el crecimiento de algunas poblaciones (seres humanos, bacterias, etc.) 
con un modelo logístico del siguiente tipo: 


Bi 


T= 14 e269) 


Ue (14.5.5) 
donde Y = población, en millones; t = tiempo (medido cronológicamente), y las £ son los pa- 
rámetros. 

Este modelo es no lineal en los parámetros; no existe una manera sencilla de convertirlo en un 
modelo lineal en los parámetros. Por tanto, es necesario un método de estimación no lineal para 
estimar los parámetros. Observe una característica interesante de este modelo: a pesar de que 
sólo tiene dos variables, población y tiempo, hay tres parámetros desconocidos, lo cual muestra 
que en un MRNL puede haber más parámetros que variables. 

Un intento por ajustar la ecuación (14.5.5) a los datos no tuvo éxito, porque todos los coefi- 
cientes estimados fueron estadísticamente insignificantes. Tal vez esto no deba sorprender, pues, 
si graficamos la población contra el tiempo, obtenemos la figura 14.2. 
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EJEMPLO 14.3 
(continuación) 


FIGURA 14.3 
Logaritmo de población 
sobre el año. 
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Esta figura demuestra una relación casi lineal entre las dos variables. Si se graficamos el logaritmo 
de la población contra el tiempo, obtenemos la siguiente figura: 


IAS 


Año 


La pendiente de esta figura (multiplicada por 100) da la tasa de crecimiento de la población 
(¿por qué?). 

De hecho, si efectuamos una regresión del logaritmo de la población sobre el tiempo, obte- 
nemos los siguientes resultados: 


Variable dependiente: L Población 


Método: Mínimos cuadrados 


Muestra: 1970-2007 
Observaciones incluidas: 38 


Coeficiente Error estándar Estadístico t Prob. 
C =8. 710413 0.147737 — 56. 95692 0.0000 
AÑO 0. 010628 7.43E-05 143.0056 0.0000 
R cuadrada 0.998244 Media de la variable 
R cuadrada ajustada 0.998195 dependiente 12.42405 
Error estándar de la regresión 0. 005022 Desviación estándar de la 
Suma de cuadrados residual 0.000908 variable dependiente 0 ¿LS 
Log verosimilitud 148.2756 Criterio de información de 
Estadístico F 20465.26 Akaike =7,698713 
Prob. (estadístico F) 0.000000 Criterio de Schwarz =7.612525 
Criterio de Hannan-Quinn —7.668048 
Estadístico de Durbin-Watson 0.366006 


Esta tabla muestra que, de 1970 a 2007, la población de Estados Unidos creció con una tasa 
aproximada de 1.06 por ciento anual. El valor R? de 0.998 revela un ajuste casi perfecto. 

Este ejemplo pone de manifiesto un punto importante: a veces, un modelo lineal (en los 
parámetros) es preferible a uno no lineal (en los parámetros). 
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EJEMPLO 14.4 En el apéndice 64.5 consideramos brevemente la transformación Box-Cox. Seguiremos traba- 
Transformación jando con el ejemplo 14.3, pero supondremos el siguiente modelo: 


Box-Cox: Población 
de Estados Unidos, 


Población? = f¡ + 62 Año + u 


1970-2007 o se mencionó en el apéndice 64.5, según el valor de à tenemos las siguientes posibilida- 
Valor de A Modelo 
1 z 
al Población eo 
0 In Población = f¡ + 2 Año + u 
1 Población; = 81 + 62 Año + u 


El primero es un modelo inverso, el segundo es un modelo semilog (que ya estimamos en el 
ejemplo 14.3) y el tercero es un modelo lineal (en las variables). 
¿Cuál de estos modelos es adecuado para los datos de población? Para responder se usa la 


rutina Box-Cox en STATA (versión 10): 


Prueba Log verosimilitud Estadístico Valor p, 
HO: restringido RV ji? Prob. > ji? 
8=-1 —444.42475 0.14 0.707 
O= 0 —444.38813 0.07 0.794 
8=1 —444.75684 0.81 0.369 


Nota: En nuestra notación, theta (9) es lo mismo que lambda (A). Esta tabla muestra que, con 
base en la prueba de la razón de verosimilitud (RV), no podemos rechazar ninguno de estos va- 
lores à como posibles valores de la potencia de la población; es decir, en el presente ejemplo, los 
modelos lineal, inverso y semilog son candidatos por igual para representar el comportamiento 
de la población en el periodo de muestra de 1970 a 2007. Por tanto, presentamos los resulta- 


dos de los tres modelos: 


Variable dependiente  Intercepto 
1/Población 0.000089 
t(166.14) 
In Población 8.7104 
t (-58.96) 
Población 5042627 
t (-66.92) 


Pendiente R2 
—4.28e-08 0.9986 
(1568.10) 

0.0106 0.9982 
(143.06) 

2661.825 0.9928 
(70.24) 


En todos estos modelos los coeficientes estimados son, sin excepción, muy significativos estadís- 
ticamente. Sin embargo, observe que los valores R? no son directamente comparables, porque 
las variables dependientes de los tres modelos son diferentes. 

Este ejemplo demuestra que las técnicas de estimación no lineales son aplicables a situaciones 


concretas. 
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Resumen y Los principales aspectos que se analizaron en este capítulo se resumen de la siguiente forma: 


conclusiones 1. Aunque los modelos de regresión lineal predominan en la teoría y en la práctica, hay ocasio- 
nes en las que son útiles los modelos de regresión no lineales en los parámetros (MRNL). 


2. Las matemáticas propias de los modelos de regresión lineal son comparablemente sencillas, 
pues ofrecen soluciones explícitas o analíticas para los coeficientes de tales modelos. La teoría 
de inferencia de muestras grandes y muestras pequeñas para dichos modelos está bien funda- 
mentada. 


3. En contraste, para los modelos de regresión intrínsecamente no lineales, los valores de los 
parámetros no se obtienen de manera explícita. Deben calcularse de forma numérica; es decir, 
mediante procesos iterativos. 


4. Existen diversos métodos para obtener los estimados de los MRNL, como 1) ensayo y error, 
2) mínimos cuadrados no lineales (MCNL) y 3) linealización mediante la expansión de series 
de Taylor. 


5. Los paquetes de computación ahora cuentan con rutinas integradas, como las de Gauss- 
Newton, Newton-Raphson y la de Marquard. Todas son rutinas iterativas. 


6. Los estimadores de MCNL no presentan propiedades óptimas en las muestras finitas, pero 
en muestras grandes sí cuentan con tales propiedades. En consecuencia, los resultados de los 
MCNL en pequeñas muestras deben interpretarse con precaución. 


7. Los problemas de autocorrelación, heteroscedasticidad y especificación de modelos pueden 
afectar a los MRNL, como afectan a los modelos de regresión lineales. 


8. Mustramos los MCNL con diversos ejemplos. Gracias a la gran disponibilidad de paquetes de 
computación accesibles, la estimación de los MCNL ya no es un obstáculo. Por consiguiente, 
el lector no debe evitar estos modelos cuando sean convenientes por razones prácticas o teórl- 
cas. De hecho, si consulta el ejercicio 12.10, verá que en la ecuación (1) existe un modelo de 
regresión intrínsecamente no lineal, que debe calcularse como tal. 


EJERCICIOS Preguntas 


14.1. ¿Qué se quiere decir con modelos de regresión intrínsecamente lineales e intrínsecamente 
no lineales? Proporcione algunos ejemplos. 


14.2. Como el término de error en la función producción de Cobb-Douglas se introduce me- 
diante una forma aditiva o una multiplicativa, ¿cómo decidiría entre ambas? 


14.3. ¿Cuál es la diferencia entre la estimación por MCO y por mínimos cuadrados no lineales 
(MCNL)? 
14.4. La relación entre la presión y la temperatura en el vapor saturado se expresa como:* 


Ye B1(10)%'/1+D Tu 


donde Y = presión y t = temperatura. Con el método de los mínimos cuadrados no linea- 
les (MCNL), obtenga las ecuaciones normales para este modelo. 


* Adaptado de Draper y Smith, op. cit., p. 554. 
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TABLA 14.2 
Población de Estados 
Unidos (millones de 
habitantes) 


Fuente: Economic Report of the 
President, 2008. 


14.5. 


14.6. 


14.7. 


Establezca si los siguientes enunciados son verdaderos o falsos. Justifique sus respuestas. 

a) La inferencia estadística en la regresión con MCNL no puede basarse en las pruebas 
t, F y x? usuales, aunque se suponga que el término de error está normalmente distri- 
buido. 

b) El coeficiente de determinación (R?) no es un número particularmente importante 
para un MRNL. 


¿Cómo linealizaría la función de producción ECS analizada en este capítulo? Muestre los 
pasos necesarios. 

Los modelos que describen el comportamiento de una variable a lo largo del tiempo se 
llaman modelos de crecimiento. Tales modelos operan en diversos campos, como eco- 
nomía, biología, botánica, ecología y demografía. Los modelos de crecimiento adoptan 
varias formas, tanto lineales como no lineales. Considere los siguientes modelos, donde 
Y es la variable cuyo crecimiento se desea medir, t es el tiempo medido cronológicamente 
y u, es el término de error estocástico. 


a) Y,=B1+ Bat + u 

b) In Y, = Bi + Pat + u 

c) Modelo de crecimiento logistico: Y, = D +u 

d) Modelo de crecimiento de Gompertz: Y, = pie P + u, 


Determine las propiedades de estos modelos al considerar el crecimiento de Y en relación 
con el tiempo. 


Ejercicios empíricos 


14.8. 


14.9. 


Los datos de la tabla 14.2 corresponden a la población de Estados Unidos (en millones de 
personas) de 1970 a 2007. Ajuste los modelos de crecimiento que se presentan en el ejer- 
cicio 14.7 y elija el modelo que mejor se ajuste. Interprete los parámetros del modelo. 
La tabla 14.3 presenta datos reales sobre el PIB, trabajo y capital de México de 1955 a 
1974. Vea si la función de producción Cobb-Douglas multiplicativa, dada en la ecuación 
(14.1.2a), se ajusta a estos datos. Compare esos resultados con los obtenidos del ajuste 
de la función de producción Cobb-Douglas aditiva, dada en (14.1.4), cuyos resultados se 
presentan en el ejemplo 14.2. ¿Cuál ajusta mejor? 


Año Población Año Población 
1970 2051052 1989 247 342 
1971 207 661 1990 250 132 
1972 209 896 1991 253 493 
1973 211 909 1992 256 894 
1974 213 854 1993 260255 
1975 215973 1994 263 436 
1976 218 035 1995 266 557 
1977 220 239 1996 269 667 
1978 222 585 1997 272912 
1979 225 055 1998 276115 
1980 227 726 1999 279 295 
1981 229 966 2000 282 407 
1982 232 188 2001 285 339 
1983 234 307 2002 288 189 
1984 236 348 2003 290 941 
1985 238 466 2004 293 609 
1986 240 651 2005 299 801 
1987 242 804 2006 299 157 


1988 245 021 2007 302 405 
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TABLA 14.3 Datos de la función de producción de la economía mexicana 


Observación PIB Trabajo Capital Observación PIB Trabajo Capital 
1955 114 043 8310 182 113 1965 212 323 11 746 315 715 
1956 120 410 8 529 193 749 1966 226 977 11 521 337 642 
1957 129 187 8 738 205 192 1967 241 194 11 540 363 599 
1958 134 705 8 952 215 130 1968 260 881 12 066 391 847 
1959 139 960 9171 225 021 1969 277 498 12 297 422 382 
1960 150 511 9 569 237 026 1970 296 530 12 955 455 049 
1961 157 897 9 527 248 897 1971 306 712 13 338 484 677 
1962 165 286 9 662 260 661 1972 329 030 13 738 520 553 
1963 178 491 10 334 275 466 1973 354 057 15 924 561 531 
1964 199 457 10 981 295 378 1974 374 977 14 154 609 825 


Notas: El PIB se expresa en millones de pesos de 1960. 

El trabajo se expresa en miles de personas. 

El capital se expresa en millones de pesos de 1960. 
Fuente: Víctor J. Elías, Sources of Growth: A Study of Seven Latin American Economies, International Center for Economic Growth, ICS Press, San Francisco, 1992, 
tablas E-5, E-12 y E-14. 


Apéndice 14A 


14A.1 Derivación de las ecuaciones (14.2.4) y (14.2.5) 


Exprese (14.2.2) como 
ui = Y; — pie” (1) 
Por consiguiente, 
DDD T (2) 


La suma de cuadrados del error es por tanto una función de 6, y f2, pues se conocen los valores de Y y X. 
En consecuencia, para reducir la suma de cuadrados del error, se diferencia parcialmente respecto de dos 
incógnitas, lo cual da: 


e 2 
z DS pe e) E) 
y 2 
F =2 0 = Be ANa A) a 


Debido a la condición de optimización de primer orden, al igualar las ecuaciones anteriores a cero y resol- 
verlas simultáneamente, obtenemos (14.2.4) y (14.2.5). Observe que diferenciamos la suma de cuadrados 
de los errores con la regla de la cadena. 


14A.2 Método de linealización 


Los estudiantes familiarizados con el cálculo recordarán el teorema de Taylor, el cual establece que toda 
función arbitraria f (X ) que sea continua y tenga derivadas de orden n continuas puede aproximarse alrede- 
dor del punto X= Xy mediante una función polinomial y un residuo de la siguiente forma: 


CORT COCR X0) , PUNA XP 
== 1! i 2! ; 


SX) 


PENE o" 
T n! T 


R (1) 
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donde f'(Xo) es la primera derivada de f(X) evaluada en X = Xo, f "(Xo) es la segunda derivada de f(X) 
evaluada en X= Xy, y así sucesivamente; además, n! (se lee como n factorial) significa n(n — 1)(n — 2)... 1, 
con la convención de que 0! = 1, y R representa al residuo. Si tomamos n = 1, obtenemos una aproximación 
lineal; al elegir n = 2, obtenemos una aproximación polinomial de segundo grado. Como se esperaría, mien- 
tras mayor sea el orden del polinomio, mejor será la aproximación a la función original. Las series en (1) 
se conocen como la expansión de series de Taylor de f (X) alrededor del punto X = Xp. Como ejemplo, 
considere la función: 


Y = f(X) = a1 +a2X +03? + 04X? 
Suponga que deseamos aproximarla a X = 0. Ahora obtenemos: 
FO =a J'O =o  f"(0) = 23 J” (0) = 604 
Por consiguiente, obtenemos las siguientes aproximaciones: 


JO 
! 


Primer orden: Y =01 + 7 


ai +dX 4 a residuo (= 034? + 047) 


Segundo orden: Y = f(0)4 Mr } CU 


=0+0X+03x a residuo ( = 04X?) 


Tercer orden: Y =0+0X+03X +04X? 


La aproximación de tercer orden reproduce con exactitud la ecuación original. 

El objetivo de la aproximación mediante las series de Taylor con frecuencia consiste en elegir un poli- 
nomio de orden inferior, con la esperanza de que el término del residuo no tenga consecuencia alguna para 
el proceso. Suele utilizarse para aproximar una función no lineal mediante una función lineal, al eliminarse 
los términos de orden superior. 

La aproximación mediante series de Taylor se generaliza con facilidad a una función con más de una X. 
Por ejemplo, considere la siguiente: 


Y= f(X, Z) (2) 
y suponga que deseamos expandir alrededor de X = a y Z = b. El teorema de Taylor demuestra que 
f(x,z) = fla, b)+ fx(a, b)(x — a) 
+ Ala, DSE — b) + Uila, DA ay 6) 
= 2 fusla, b)(x = a)(z = b) + fesla, b) = b)'] + -+> 


donde fy = la derivada parcial de la función respecto de X, fex = la segunda derivada parcial respecto de X y 
de manera semejante para la variable Z. Si queremos una aproximación lineal para la función, utilizamos los 
dos primeros términos de (3); si queremos una aproximación cuadrática, o de segundo orden, empleamos 
los tres primeros términos de (3), y así sucesivamente. 


14A.3 Aproximación lineal de la función exponencial 
dada en (14.2.2) 


La función en consideración es: 
P= BB) = Bi (1) 


Nota: Para un manejo sencillo, eliminamos los subíndices. 


Recuerde que en esta función las incógnitas son los coeficientes $. Linealicemos esta función en £; = Bj y 
B2 = B3, donde las cantidades con asterisco son valores fijos dados. Para linealizar lo anterior, procedemos 
de la siguiente forma: 


Y = f(Br B2) = SUBÍ, BD + foi (BT, PCB BO + fe (Bi, PIB? — Ba) (2) 
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donde fg1 y fg2 son las derivadas parciales de la función (1) respecto de las incógnitas, y tales derivadas se 
evaluarán en los valores (supuestos) con asterisco de los parámetros desconocidos. Observe que sólo usa- 
mos las primeras derivadas en la expresión anterior, pues estamos linealizando la función. Ahora suponga 
que Bj = 0.45 y 6% = 0.01, las cuales son sólo conjeturas de los verdaderos coeficientes. Ahora 


(BT = 0.45, B3 = 0.01) = 0.4500.01% 
(3) 


FB = ef2%i y Íe = Bi Xie? xi 


debido a las reglas usuales de la derivación. Al evaluar las derivadas anteriores en los valores dados y al 
regresar a (2), obtenemos: 


Y, OLDAN 4 ¿(01% (8, — 0.45) + (0.45) a E — 0.01) (4) 
que escribimos como: 
(Y; — 0.45 01%) = LUX w] Y 0.45X 001% o (5) 
donde 
a1=(B8=045) y 0 =(8—0.01) (6) 


Ahora, sea Y* = (Y, — 0.45e001X), X] = 001% y Xz; =0.45X¡e01%. Con estas definiciones y al sumar 
el término error u;, podemos finalmente escribir (5) como: 


Y? = œ) Xii +07X) + ui (7) 


Y aquí tenemos un modelo de regresión lineal. Como Y*, Xu; y Xz; se calculan con facilidad a partir de los 
datos, podemos estimar con sencillez (7) mediante MCO y obtener los valores de œ y «>. Así, a partir de 
(6) obtenemos: 


B= âı +0.45 y B= â + 0.01 (8) 


Llame a esos valores f¡* y $3*, respectivamente. Con esos valores (revisados) podemos empezar el proceso 
iterativo dado en (2), con lo cual obtenemos otro conjunto más de valores de los coeficientes $. Podemos 
seguir iterando (o linealizando) de esta forma hasta que no haya cambios sustanciales en los valores de los 
coeficientes $. En el ejemplo 14.1 se requirieron cinco iteraciones, pero para el ejemplo de la función Cobb- 
Douglas de México (ejemplo 14.2) se necesitaron 32 iteraciones. No obstante, la lógica de estas iteraciones 
es el procedimiento que acabamos de ejemplificar. 

Para la estructura de las comisiones del fondo mutualista de la sección 14.3, las Y*, X1 y X se presentan 
en la tabla 14.4 tal como aparecen en (6); los datos básicos se proporcionan en la tabla 14.1. Con base en 
estos valores, los resultados de la regresión correspondientes a (7) son: 


Variable dependiente: Y* 
Método: Mínimos cuadrados 


Variable Coeficiente Error estándar Estadístico t Probabilidad 


Xı 0.022139 0.014126 1.309705 omiBB5 
X2 -0.010693 0.000790 =13 ¿ DADO 0.0000 


R? = 0.968324 Estadístico d de Durbin-Watson = 0.308883 


Ahora, con (8), el lector puede verificar que 


B* = 0.4727 y Bi =— 0.00069 (9) 
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TABLA 14.4 y* Xa Xə 
0.067744 1.005013 0.226128 
0.034928 1.051271 2.365360 

—0.013327 1.105171 4.973269 
—0.062825 1.161834 7.842381 
—0.109831 1.221403 10.99262 
—0.154011 1.284025 14.44529 
—0.195936 1.349859 18.22309 
—0.236580 1.419068 22.35031 
—0.276921 1.491825 26.85284 
—0.317740 1.568312 31.75832 
—0.397464 117188255 42.89801 
—0.446153 1.822119 49.19721 


Compare estos números con las conjeturas iniciales de 0.45 y 0.01, respectivamente, para los dos pa- 
rámetros. Con las nuevas estimaciones dadas en (9) podemos comenzar el procedimiento iterativo una vez 
más y seguirlo hasta que haya “convergencia” en el sentido de que la rutina final de estimaciones no difiera 
mucho de la rutina anterior. Por supuesto, necesitará menos iteraciones si la conjetura inicial está más 
próxima a los valores finales. Asimismo, observe que sólo utilizamos el término lineal de la expansión de 
series de Taylor. Si fuese a utilizar términos cuadráticos o superiores en la expansión, tal vez alcance los 
valores finales con mayor rapidez. Pero en muchas aplicaciones la aproximación lineal ha demostrado ser 
muy adecuada. 


Capítulo l 


Modelos de regresión de 
respuesta cualitativa 


En todos los modelos de regresión considerados hasta ahora, supusimos que la regresada, la 
variable dependiente o la variable de respuesta Y era cuantitativa, mientras que las variables ex- 
plicativas podían ser cuantitativas o cualitativas, o una mezcla de las dos. De hecho, en el capítulo 
9, sobre variables dicótomas, vimos cómo se introducen las regresoras dicótomas en un mode- 
lo de regresión y el papel que desempeñan en situaciones especificas. 

En este capítulo consideraremos modelos de regresión en los cuales la variable dependiente 
o de respuesta puede ser en sí misma de naturaleza cualitativa. Aunque los modelos de regresión 
de respuesta cualitativa cada vez son más comunes en diversas áreas de las ciencias sociales y 
la investigación médica, plantean interesantes retos respecto de su cálculo y estimación. En este 
capítulo sólo abordaremos algunos temas importantes de esta área, y dejamos los detalles para 
libros más especializados. ! 


15.1 Naturaleza de los modelos de respuesta cualitativa 


Suponga que deseamos estudiar la participación en la fuerza laboral (PFL) de los hombres adul- 
tos. Como un adulto está en la fuerza laboral o no lo está, la PFL es una decisión de sí o no. Por 
consiguiente, la variable de respuesta, o regresada, sólo puede adquirir dos valores; por ejemplo, 
1 si la persona está en la fuerza laboral y 0 si no lo está. En otras palabras, la regresada es una 
variable binaria, o dicótoma. La investigación en economía del trabajo indica que la PFL es 
una función de la tasa de desempleo, tasa del salario promedio, escolaridad, ingreso familiar, 
etcétera. 

Otro ejemplo: piense en las elecciones presidenciales de Estados Unidos. Suponga que hay 
dos partidos políticos, el Demócrata y el Republicano. La variable dependiente en este caso es la 
elección de voto entre ambos partidos políticos. Suponga que Y= 1 si el voto es para el candidato 
demócrata y Y = 0 si el voto es republicano. El economista Ray Fair, de la Universidad Yale, y 
otros científicos de la política han efectuado una gran cantidad de trabajo de investigación sobre 
este tema.? Algunas variables en la elección del voto son la tasa del crecimiento del PIB, las tasas 


1 En un nivel introductorio, el lector puede encontrar muy útiles las siguientes fuentes: Daniel A. Powers y Yu 
Xie, Statistical Methods for Categorical Data Analysis, Academic Press, 2000; John H. Aldrich y Forrest Nelson, 
Linear Probability, Logit and Probit Models, Sage, 1984; y Tim Futing Liao, Interpreting Probability Models: Logit, 
Probit and Other Generalized Linear Models, Sage, 1994. Para una revisión muy completa de la bibliografía, 
véase G.S. Maddala, Limited-Dependent and Qualitative Variables in Econometrics, Cambridge University Press, 
1983. 

2 Véase, por ejemplo, Ray Fair, “Econometrics and Presidential Elections”, Journal of Economic Perspective, 
verano, 1996, pp. 89-102, y Machael S. Lewis-Beck, Economics and Elections: The Major Western Democracies, 
University of Michigan Press, Ann Arbor, 1980. 
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de desempleo e inflación, si el candidato se va a reelegir, etc. Para nuestros propósitos, lo impor- 
tante es notar que la regresada es una variable cualitativa. 

Podemos pensar en otros ejemplos en los que la regresada es cualitativa por naturaleza. Por 
consiguiente, una familia posee o no posee casa, tiene seguro contra invalidez o no lo tiene, 
ambos cónyuges están en la fuerza laboral o sólo uno de ellos lo está. En forma similar, un de- 
terminado fármaco es eficaz para curar una enfermedad o no lo es. Una empresa decide declarar 
el rendimiento de sus acciones u ocultarlo, un senador decide votar en favor de un impuesto o en 
contra, el presidente decide vetar una ley o aprobarla, etcétera. 

No tenemos que restringir la variable de respuesta a un sí o no, o sólo a categorías dicótomas. 
De regreso con el ejemplo de las elecciones presidenciales, suponga que existen tres partidos: 
el Demócrata, el Republicano y el Independiente. La variable de respuesta en este caso es tricó- 
toma. En general, podemos tener una variable de respuesta policótoma (o de categoría múlti- 
ple). 

En primer lugar, lo que pretendemos es considerar la regresada dicótoma y luego analizar di- 
versas extensiones del modelo básico. Pero antes, es importante hacer hincapié en una diferencia 
fundamental entre un modelo de regresión en el que la regresada Y es cuantitativa y un modelo 
en el que es cualitativa. 

En un modelo en donde Y es cuantitativa, el objetivo consiste en estimar su valor esperado, o 
media esperada, dados los valores de las regresoras. En términos del capítulo 2, lo que deseamos 
es obtener E(Y;| Xin Xi, . . . , Xx), donde las X son las regresoras, tanto cuantitativas como cuali- 
tativas. En los modelos en donde Y es cualitativa, el objetivo es encontrar la probabilidad de que 
un acontecimiento suceda, como votar por el candidato demócrata, poseer una casa, pertenecer 
a un sindicato, practicar algún deporte, etc. Por tanto, los modelos de regresión con respuestas 
cualitativas a menudo se conocen como modelos de probabilidad. 

En lo que resta de este capítulo buscaremos respuestas a las siguientes preguntas: 


1. ¿Cómo se estiman los modelos de regresión con respuestas cualitativas?, ¿simplemente se 
estiman con los procedimientos usuales de MCO? 

2. ¿Se presentan problemas de inferencia especiales? En otras palabras, ¿el procedimiento de 
pruebas de hipótesis se diferencia de los que hemos estudiado hasta este momento? 


3. Si una regresada es cualitativa, ¿cómo se mide la bondad de ajuste de dichos modelos”, ¿tiene 
algún valor la R? convencionalmente calculada para tales modelos? 


4. Una vez rebasado el caso de la regresada dicótoma, ¿cómo se estiman e interpretan los mode- 
los de regresión policótomos? Asimismo, ¿cómo se trabaja con modelos en los que la regre- 
sada es ordinal; es decir, consiste en una variable categórica ordenada, como la escolaridad 
(menos de ocho años, de ocho a 11 años, 12 años y 13 años o más), o la regresada es nominal, 
en la que no existe un orden inherente, como el origen étnico (blanco, negro, hispano, asiático, 
etcétera)? 

5. ¿Cómo se elaboran los modelos para fenómenos como el número anual de visitas al médico, la 
cantidad de patentes que registra una empresa en un año determinado, el número de artículos 
publicados por un profesor universitario durante un año, el número de llamadas telefónicas 
recibidas en un lapso de cinco minutos o la cantidad de automóviles que pasan por una caseta 
de cobro durante cinco minutos? Dichos fenómenos, llamados datos de conteo, o sucesos 
raros, son un ejemplo del proceso (de probabilidad) de Poisson. 


En este capítulo responderemos varias de estas interrogantes en un nivel elemental, pues al- 
gunos temas son de carácter muy elevado y requieren un conocimiento matemático y estadístico 
mayor que el supuesto para este libro. Consulte la bibliografía en las notas para conocer con 
mayor detalle la materia. 

Comenzaremos el estudio de los modelos con respuesta cualitativa, en primer lugar, el modelo 
de regresión con respuesta binaria. Hay cuatro métodos para crear un modelo de probabilidad 
para una variable de respuesta binaria: 


1. El modelo lineal de probabilidad (MLP) 
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2. El modelo logit 
3. El modelo probit 
4. El modelo tobit 
En vista de su simplicidad relativa y debido a que se estima mediante mínimos cuadrados 


ordinarios (MCO), estudiaremos primero el MLP, y dejamos los otros tres modelos para las sec- 
ciones subsiguientes. 


15.2 Modelo lineal de probabilidad (MLP) 


Para establecer las ideas, considere el siguiente modelo simple: 
Y, = Bi + b2Xi + ui (15.2.1) 


donde X = el ingreso familiar, y Y = 1 si la familia tiene casa propia y 0 si la familia no tiene 
casa propia. 

El modelo (15.2.1) parece un modelo de regresión lineal común, pero debido a que la variable 
regresada es binaria, o dicótoma, se denomina modelo lineal de probabilidad (MLP). Esto es 
porque la expectativa condicional de Y; dado X;, E(Y; | X;) puede interpretarse como la probabili- 
dad condicional de que el suceso tenga lugar dado X;; es decir, Pr (Y; = 1| X;). Así, en el ejemplo, 
E(Y; | X;) da la probabilidad de que una familia tenga casa propia y perciba ingresos por una cierta 
cantidad X;. 

La justificación del nombre MLP para modelos como (15.2.1) es la siguiente: En el supuesto 
de que E(u;) = 0, como de costumbre (para obtener estimadores insesgados), obtenemos 


E(Y; | Xi) = fı + P2X; (15.2.2) 


Ahora, si P; = probabilidad de que Y; = 1 (es decir, de que el suceso ocurra) y (1 — P;) = pro- 
babilidad de que Y; = 0 (es decir, de que el suceso no ocurra), la variable Y; tiene la siguiente 
distribución (de probabilidad): 


Y; Probabilidad 
0 1-P; 

1 P; 

Total 1 


Es decir, Y; sigue la distribución de probabilidades de Bernoulli. 
Por consiguiente, por la definición de esperanza matemática, obtenemos 


E(Y) = 0(1 — P;) + UP;) = P; (15.2.3) 
Al comparar (15.2.2) con (15.2.3), igualamos 
E(Y; | X;) = i + P2X; = P; (15.2.4) 


es decir, la esperanza condicional del modelo (15.2.1) en realidad se interpreta como la proba- 
bilidad condicional de Y;. En general, la esperanza de una variable aleatoria Bernoulli está dada 
por la probabilidad de que esa variable sea igual a 1. Por cierto, observe que si existen n intentos 
independientes, cada uno con una probabilidad p de éxito y una probabilidad (1 — p) de fracaso, 
y X de tales intentos representa el número de éxitos, se dice que X sigue una distribución bino- 
mial. La media de la distribución binomial es np, y su varianza, np(1 — p). El término éxito se 
define dentro del contexto del problema. 
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Como la probabilidad P; debe encontrarse entre 0 y 1, tenemos la restricción 
0< E(Y|X) <1 (15.2.5) 


es decir, la esperanza condicional (o probabilidad condicional) debe encontrarse entre 0 y 1. 

Del análisis anterior pareceria que los MCO pueden extenderse sin dificultad a modelos de 
regresión con variable dependiente binaria. Así, tal vez no haya ninguna novedad aquí. Por des- 
gracia, no es el caso, pues el MLP plantea diversos problemas, a saber: 


No normalidad de las perturbaciones u; 


Aunque MCO no requiere que las perturbaciones (las u;) estén normalmente distribuidas, supu- 
simos que lo estaban para fines de inferencia estadística. Pero el supuesto de normalidad para u; 
ya no se mantiene en los MLP porque, al igual que Y;, u; sólo toma dos valores; es decir, también 
sigue la distribución de Bernoulli. Para ver esto, escribimos (15.2.1) como 


ui = Y; — Bi — BoX; (15.2.6) 


La distribución de probabilidades de u; es 


üi Probabilidad 
Cuando Y; =1 1— Bj — b2Xi Pi (15.2.7) 
Cuando Y; = 0 —ßı — b2 Xi (A — Pi) 


Obvio, no puede suponerse que u; esté normalmente distribuida; en realidad sigue la distribu- 
ción de Bernoulli. 

Pero el no cumplimiento del supuesto de normalidad quizá no sea tan crítico como parece 
porque sabemos que las estimaciones puntuales de MCO aún permanecen insesgadas (recuerde 
que si el objetivo es la estimación puntual, el supuesto de normalidad resulta innecesario). Ade- 
más, puede demostrarse que, conforme el tamaño de la muestra aumenta indefinidamente, los 
estimadores de MCO tienden a tener una distribución? normal, según la teoría estadística. Por 
consiguiente, en muestras grandes, la inferencia estadística del MLP seguirá el procedimiento de 
MCO usual según el supuesto de normalidad. 


Varianzas heteroscedásticas de las perturbaciones 
Aunque E(u;) = 0 y cov (u;, uj) = 0 para i A j (es decir, no hay correlación serial), ya no es 
posible sostener la afirmación de que las perturbaciones en el MLP son homoscedásticas. Esto, 
sin embargo, no debe sorprender. Como demuestra la teoría estadística, para una distribución de 
Bernoulli, la media y la varianza teóricas son p y p(1 — p) respectivamente, donde p es la proba- 
bilidad de éxito (es decir, de que algo suceda), lo cual revela que la varianza es una función de la 
media. Por tanto, la varianza del error es heteroscedástica. 

Para la distribución del término de error dado en (15.2.7), si se aplica la definición de va- 
rianza, el lector verificará que (véase el ejercicio 15.10) 


var (u;) = P/(1 — P;) (15.2.8) 


3 Recuerde que recomendamos verificar el supuesto de normalidad mediante pruebas de normalidad ade- 
cuadas, como la de Jarque-Bera. 

4 La prueba se basa en el teorema central del límite y se encuentra en E. Malinvaud, Statistical Methods of 
Econometrics, Rand McNally, Chicago, 1966, pp. 195-197. Si las regresoras se consideran estocásticas y están 
normalmente distribuidas en forma conjunta, las pruebas F y t son aún útiles aunque las perturbaciones no 
sean normales. También considere que, conforme el tamaño de la muestra se incrementa de manera indefi- 
nida, la distribución binomial converge a la distribución normal. 
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Es decir, la varianza del término de error en el MLP es heteroscedástica. Como P; = E(Y; | X) = 
B1 + 2X; la varianza de u; depende, al final, de los valores de X y por tanto no es homoscedás- 
tica. 

Ya sabemos que, en presencia de heteroscedasticidad, los estimadores de MCO, aunque in- 
sesgados, no son eficientes; es decir, no tienen varianza mínima. Pero, de nuevo, el problema 
de heteroscedasticidad, al igual que el de la no normalidad, no es insuperable. En el capítulo 11 
analizamos diversos métodos para tratar el problema de heteroscedasticidad. Como la varianza de 
u; depende de E(Y; | X;), una forma de resolver el problema de heteroscedasticidad es transformar 
el modelo (15.2.1) dividiendo ambos lados del modelo (15.2.1) entre 


VEGI — E(%,1X)]= VAC =- P) = digamos yw; 


O sea 


Y B 


i 


1 +8 Xi + Ui 
Mi Oe i 
Como puede verificar con facilidad, el término de error transformado en (15.2.9) es homosce- 
dástico. Por consiguiente, después de estimar (15.2.1), ahora podemos calcular (15.2.9) mediante 
MCO, lo cual no es otra cosa que los mínimos cuadrados ponderados (MCP), donde w; son las 
ponderaciones. 

En teoría, lo que acabamos de describir es correcto; pero en la práctica, se desconoce la 
verdadera E(Y; | X;), y en consecuencia, se desconocen las ponderaciones w;. Para calcularlas, 
utilizamos el siguiente procedimiento, que consta de dos pasos:> 


(15.2.9) 


w 


Paso 1. Efectúe la regresión (15.2.1) por MCO sin considerar el problema de heteros- 
cedasticidad y obtenga Y; = el valor estimado de la verdadera Æ(Y; | X;). Luego obtenga 
w; = Y,01 — Y), el valor estimado de w;. 

Paso 2. Con el w; estimado transforme los datos como en (15.2.9) y estime la ecuación 
transformada mediante MCO (es decir, mínimos cuadrados ponderados). 


Aunque en breve ilustraremos este procedimiento en nuestro ejemplo, cabe señalar que se pueden 
usar los errores estándar corregidos por heteroscedasticidad de White para resolver la heterosce- 
dasticidad, siempre que la muestra sea razonablemente grande. 

Pero aunque corrijamos la heteroscedasticidad, es necesario resolver primero otro problema 
que afecta al MLP. 


No cumplimiento de 0 < E(Y;| X) < 1 

Como K(Y; | X;) en los modelos lineales de probabilidad mide la probabilidad condicional de que 
ocurra el suceso Y dado X, ésta debe encontrarse necesariamente entre 0 y 1. Aunque a priori esto 
es verdadero, no hay garantía de que Y;, los estimadores de E(Y; | X;), cumplan necesariamente 
esta restricción, y éste es el verdadero problema con la estimación del MLP por MCO. Esto 
sucede porque MCO no toma en cuenta la restricción 0 < £(Y;) < 1 (una restricción de desigual- 
dad). Hay dos formas de establecer si el Y; estimado se encuentra entre 0 y 1. Una es estimar el 
MLP mediante el método usual de MCO y determinar si el Y; estimado se encuentra entre 0 y 1. Si 
algunos valores son menores que 0 (es decir, negativos), para esos casos se supone que Y; es cero; 
si son mayores que 1, se supone que son 1. El segundo procedimiento es diseñar una técnica de 
estimación que garantice que las probabilidades condicionales estimadas Y; se encuentren entre 
0 y 1. Los modelos logit y probit analizados más adelante garantizarán que las probabilidades 
estimadas se encuentren con seguridad entre los límites lógicos 0 y 1. 


5 Para conocer la justificación de este procedimiento, véase Arthur S. Goldberger, Econometric Theory, John 
Wiley & Sons, Nueva York, 1964, pp. 249-250. La justificación consiste básicamente en la de muestras gran- 
des que analizamos en el tema de los mínimos cuadrados generalizados estimados o factibles, en el capítulo 
sobre heteroscedasticidad (sección 11.6). 
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FIGURA 15.1 
Modelos lineales de 
probabilidad. 


Valor cuestionable de R? como medida de la bondad 
del ajuste 


R? calculada de manera convencional tiene un valor limitado en los modelos de respuesta dicó- 
toma. Para ver la razón, considere la figura 15.1. Dado un X, Y es igual a 0 o a 1. Por consiguien- 
te, todos los valores de Y se encontrarán en el eje X o en la línea correspondiente a 1. Entonces, 
por lo general, no se espera que haya un MLP que ajuste bien a tal dispersión, bien sea el MLP 
no restringido (figura 15.1a) o el MLP truncado o restringido (figura 15.15), un MLP estimado 
en forma tal que no caiga por fuera de la banda lógica 0-1. Como resultado, es probable que el 
cálculo convencional de R? sea muy inferior a 1 en estos modelos. En la mayoría de las aplicacio- 
nes prácticas, R? se encuentra entre 0.2 y 0.6. El valor de R? en ese tipo de modelos será elevado, 
por ejemplo, superior a 0.8, sólo cuando la dispersión observada esté muy concentrada alrededor 
de los puntos A y B (figura 15.1c), pues en ese caso es fácil modificar la línea uniendo los puntos 
A y B. En este caso, el valor pronosticado de Y; estará muy cerca de 0 o de 1. 


x> 


y MLP (no restringido) 


Y 
Y 


1 MLP (restringido) 
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Por estas razones, John Aldrich y Forrest Nelson sostienen que “debe evitarse el coeficiente de 


determinación como estadístico de resumen en modelos con variable dependiente cualitativa”.* 


EJEMPLO 15.1 
MLP: un ejemplo 
numérico 


TABLA 15.1 

Datos hipotéticos sobre 
propiedad de vivienda 
(Y = 1 si tiene casa 
propia, 0 de lo contra- 
rio) e ingreso X (miles 
de dólares) 


Para ilustrar algunos puntos señalados sobre el MLP en la sección anterior, presentamos un ejem- 
plo numérico. La tabla 15.1 muestra datos inventados sobre propiedad de vivienda Y (1 = tiene 
casa propia, 0 = no tiene casa propia) e ingreso familiar X (miles de dólares) de 40 familias. Con 
base en esta información, el MLP estimado por MCO fue el siguiente: 


Ý; = -0.9457 + 0.1021X; 
(0.1228) (0.0082) (15.2.10) 
t = (—7.6984) (12.515) R? = 0.8048 


Primero, interpretemos esta regresión. El intercepto de —0.9457 da la “probabilidad” de que 
una familia con ingreso cero tenga una casa propia. Como este valor es negativo y la probabi- 
lidad no puede ser negativa, consideramos que este valor es cero, lo cual es razonable en este 
caso.” El valor de la pendiente de 0.1021 significa que para un cambio unitario en el ingreso 
(aquí, $1 000), en promedio, la probabilidad de tener casa propia aumenta en 0.1021 o alrede- 
dor de 10%. Desde luego, con un nivel de ingreso determinado, podemos estimar la probabili- 
dad real de tener casa propia a partir de (15.2.10). Así, para X = 12 ($12 000), la probabilidad 
estimada de tener casa propia es 


il X =12) = —0.9457 + 12(0.1021) 


= 0.2795 
Familia y X Familia y X 
1 0 8 21 1 22 
2 1 16 22 1 16 
3 1 18 23 0 12 
4 0 11 24 0 11 
5 0 12 25 1 16 
6 1 19 26 0 11 
7 1 20 27 1 20 
8 0 13 28 1 18 
9 0 9 29 0 11 
10 0 10 30 0 10 
11 1 17 31 1 17 
12 1 18 32 0 13 
13 0 14 33 1 21 
14 1 20 34 1 20 
15 0 6 35 0 11 
16 1 19 36 0 8 
17 1 16 37 1 17 
18 0 10 38 1 16 
19 0 8 39 0 7 
20 1 18 40 1 17 
(continúa) 


é Aldrick y Nelson, op. cit., p. 15. Para otras medidas de bondad de ajuste en modelos con variables regre- 


sadas dicótomas, véase T. Amemiya, “Qualitative Response Models”, Journal of Economic Literature, vol. 19, 
1981, pp. 331-354. 

7 Generalmente, se puede interpretar un valor muy negativo como una probabilidad casi nula de poseer una 
casa propia cuando el ingreso es cero. 
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EJEMPLO 15.1 
(continuación) 


Es decir, la probabilidad de que una familia con un ingreso de $12 000 tenga una casa propia 
es de alrededor de 28%. La tabla 15.2 muestra las probabilidades estimadas, Y;, para los diver- 
sos niveles de ingreso enumerados en la tabla. La característica más sobresaliente de esta tabla 
es que seis valores estimados son negativos y seis valores exceden de uno, lo cual demuestra 
claramente el punto ya planteado de que, aunque E(Y;| X;) es positivo y menor que 1, no necesa- 
riamente se cumple que sus estimadores Y; sean positivos o inferiores a 1. Ésta es una razón por 
la cual el MLP no es el modelo recomendado cuando la variable dependiente es dicótoma. 
Aunque todos los Y; estimados fueran positivos e inferiores a 1, el MLP todavía sufre del 
problema de heteroscedasticidad, lo cual se ve fácilmente de (15.2.8). Como consecuencia, 
no podemos confiar en los errores estándar estimados que se reportan en (15.12.10). (¿Por 
qué?) Pero podemos utilizar el procedimiento de mínimos cuadrados ponderados (MCP), ya 
analizado, para obtener estimaciones más eficientes de los errores estándar. Las ponderaciones 
necesarias, W;, requeridas para la aplicación de MCP se muestran también en la tabla 15.2. Pero 
observe que algunos Y; son negativos y otros exceden el valor de uno, los w; correspondientes a 
estos valores serán negativos. Por tanto, no podemos utilizar estas observaciones en MCP (¿por 
qué?), con lo cual se reduce el número de observaciones, de 40 a 28 en este ejemplo.8 Al omitir 
estas observaciones, la regresión por MCP es 
Y; 


1 X 
= —1.2456 + 0.1196- 


15.2.11 
z Jr J ia 
(0.1206) (0.0069) 
t= (-10.332) (17.454) R2 = 0.9214 

TABLA 15.2 Y real, Y estimado y ponderaciones w; para el ejemplo de propiedad de vivienda 
Y, Y + VW; Y; Y + VW; 
0 -0.129* 1 1.3011 
1 0.688 0.2146 0.4633 1 0.688 0.2147 0.4633 
1 0.893 0.0956 0.3091 0 0.280 0.2016 0.4990 
0 0.178 0.1463 0.3825 0 0.178 0.1463 0.3825 
0 0.280 0.2016 0.4490 1 0.688 0.2147 0.4633 
1 0.995 0.00498 0.0705 0 0.178 0.1463 0.3825 
1 1.0984 1 1.0971 
0 0.382 0.2361 0.4859 1 0.893 0.0956 0.3091 
0 -0.0265* 0 0.178 0.1463 0.3825 
0 0.076 0.0702 0.2650 0 0.076 0.0702 0.2650 
1 0.791 0.1653 0.4066 1 0.791 0.1653 0.4055 
1 0.893 0.0956 0.3091 0 0.382 0.2361 0.4859 
0 0.484 0.2497 0.4997 1 1.1991 
1 1.0974 1 1.0971 
0 -0.333* 0 0.178 0.1463 0.3825 
1 0.995 0.00498 0.0705 0 -0.129* 
1 0.688 0.2147 0.4633 1 0.791 0.1653 0.4066 
0 0.076 0.0702 0.2650 1 0.688 0.2147 0.4633 
0 -0.129* 0 -0.231* 
1 0.893 0.0956 0.3091 1 0.791 0.1653 0.4066 


* Se considera igual a cero para evitar que las probabilidades sean negativas. 
T Se considera igual a uno para evitar que las probabilidades sean mayores que uno. 


a — Y. 


8 Para evitar la pérdida de grados de libertad, podemos dejar que Y; = 0.01 cuando los Y; estimados sean ne- 


gativos y Y; = 0.99 cuando superen o igualen a 1. Véase el ejercicio 15.1. 


EJEMPLO 15.1 


(continuación) 
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Estos resultados demuestran que, en comparación con (15.2.10), los errores estándar estimados 
son menores y, correspondientemente, las razones t estimadas (en valores absolutos) son más 
grandes. Pero se debe tomar este resultado con cierta reserva, pues al estimar (15.2.11) se tuvie- 
ron que eliminar 12 observaciones. Además, como los w; son estimaciones, los procedimientos 
usuales de pruebas de hipótesis estadísticas son válidos, en estricto sentido, en muestras grandes 
(véase el capítulo 11). 


15.3 Aplicaciones del MLP 


Hasta la aparición de paquetes de computación para estimar los modelos logit y probit (que ana- 
lizaremos en breve), el MLP era muy común debido a su simplicidad. A continuación ilustramos 
algunas de estas aplicaciones. 


EJEMPLO 15.2 
Estudio de Cohen, 


Rea y Lerman 


9 


En un estudio preparado por el Departamento del Trabajo de Estados Unidos, Cohen, Rea y 
Lerman examinaron la participación en la fuerza laboral de varias categorías de trabajo como 
función de diversas variables socioeconómicas y demográficas. En todas sus regresiones, la va- 
riable dependiente era dicótoma, con un valor de 1 si la persona pertenecía a la fuerza laboral 
y de 0 si no pertenecía. En la tabla 15.3 reproducimos una de sus diversas regresiones de variable 
dependiente dicótoma. 

Antes de interpretar los resultados, observe estas características: la regresión anterior se es- 
timó con MCO. Para corregir por heteroscedasticidad, los autores utilizaron el procedimiento de 
dos etapas, ya descrito, en algunas de sus regresiones, pero encontraron que los errores estándar 
de las estimaciones así obtenidas no diferían materialmente de las obtenidas sin la corrección 
por heteroscedasticidad. Tal vez este resultado se deba al tamaño total de la muestra, de alre- 
dedor de 25 000. Debido a este gran tamaño de muestra, los valores t estimados pueden 
probarse por su significancia estadística mediante el procedimiento usual de MCO aunque el 
término de error adquiera valores dicótomos. El R? estimado de 0.175 puede parecer relativa- 
mente bajo, pero en vista del gran tamaño de la muestra, este R? aún es significativo con base 
en la prueba F (véase la sección 8.4). Por último, observe la forma como los autores mezclaron 
variables cuantitativas y cualitativas, y cómo tomaron en cuenta los efectos de la interacción. 

De regreso a la interpretación de los resultados, observamos que cada coeficiente de pen- 
diente da la tasa de cambio en la probabilidad condicional del suceso que ocurre ante un cam- 
bio unitario en el valor de la variable explicativa. Por ejemplo, el coeficiente de —0.2753 que 
acompaña a la variable “más de 65 años” significa que, si se mantienen constantes todos los de- 
más factores, la probabilidad de participación en la fuerza laboral de mujeres en este grupo 
de edad es menor en alrededor de 27% (en comparación con la categoría base de mujeres con 
edades entre 22 y 54 años). Con el mismo razonamiento, el coeficiente de 0.3061, asociado a 
la variable “más de 16 años de escolaridad”, significa que, si se mantienen constantes todos los 
demás factores, la probabilidad de que las mujeres con esta misma escolaridad participen en la 
fuerza laboral es más alta en cerca de 31% (comparado con la categoría base, que son mujeres 
con menos de cinco años de escolaridad). 

Ahora, considere el término de interacción estado civil y edad. La tabla muestra que la 
probabilidad de participación en la fuerza laboral es más alta en cerca de 29% para las mujeres 
solteras (comparado con la categoría base) y más baja en alrededor de 28% para las mujeres de 
más de 65 años de edad (de nuevo, en relación con la categoría base). Pero la probabilidad 
de participación de mujeres solteras y mayores de 65 años es menor en cerca de 20% compa- 
rada con la categoría base. Esto implica que es probable que las mujeres solteras mayores de 
65 años participen en la fuerza laboral en mayor proporción que las casadas o clasificadas en la 
categoría “otros” que tienen más de 65 años de edad. 

(continúa) 


2 Malcolm S. Cohen, Samuel A. Rea, Jr., y Robert I. Lerman, A Micro Model of Labor Supply, BLS Staff Paper 4, 
Departamento de Trabajo de Estados Unidos, 1970. 
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EJEMPLO 15.2 
(continuación) 


TABLA 15.3 Participación en la fuerza laboral 


Regresión de mujeres, mayores de 22 años, que viven en las 96 áreas estadísticas metropolitanas 
estándar (AEME) más grandes (variable dependiente: perteneció o no a la fuerza laboral durante 


1966) 


Variable explicativa 
Constante 


Estado civil 
Casada, vive con el esposo 
Casada, otro 
Soltera 


Edad 
22-54 
55-64 
más de 65 


Años de escolaridad 
0-4 
5-8 
9-11 
12-15 
Más de 16 


Tasa de desempleo (1966), % 
Menos de 2.5 
2.5-3.4 
3.5-4.0 
4.1-5.0 
Más de 5.1 


Cambio en el empleo (1965-1966), % 
Menor que 3.5 
3.5-6.49 
Más de 6.5 


Oportunidades relativas de empleo, % 
Menos de 62 


62-73.9 
Más de 74 
IFMJ, $ 
Menos de 1 500 y negativo 
1 500-7 499 
7 500 y más 
Interacción (estado civil y edad) 
Estado civil Edad 
Otro 55-64 
Otro Más de 65 
Soltera 55-64 
Soltera Más de 65 
Interacción (edad y años de escolaridad terminados) 
Edad Años de escolaridad 
Más de 65 5-8 
Más de 65 9-11 
Más de 65 12-15 
Más de 65 16 y más 
R?=0.175 


Núm. de observaciones = 25 153 


Coeficiente 
0.4368 


Razón t 
15.4 


Nota: — indica la categoría base o categoría omitida. 
IFMJ: Ingreso familiar menos jornales propios e ingresos por salarios. 


Fuente: Malcolm S. Cohen, Samuel A. Rea, Jr., y Robert I. Lerman, 4 Micro Model of Labor Supply, BLS Staff Paper 4, Departamento 


de trabajo de Estados Unidos, 1970, tabla F-6, pp. 212-213. 


EJEMPLO 15.2 
(continuación) 
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Con este procedimiento puede interpretar sin dificultad el resto de los coeficientes dados 
en la tabla 15.3. Con esta información es fácil obtener las estimaciones de las probabilidades 
condicionales de la participación de la fuerza laboral de las diversas categorías. Así, si deseamos 
encontrar la probabilidad para mujeres casadas (otras), entre 22 y 54 años de edad, con 12 a 
15 años de escolaridad, con una tasa de desempleo de 2.4 a 3.4%, cambio de empleo de 3.5 
a 6.49%, oportunidades relativas de empleo de 74% y por encima y con un IFM] de $7 500 y 
más, obtenemos 


0.4368 + 0.1523 + 0.2231 — 0.0213 + 0.0301 + 0.0571 — 0.2455 = 0.6326 


En otras palabras, la probabilidad de la participación de las mujeres en la fuerza laboral con las 
características anteriores se estima en alrededor de 63%. 


EJEMPLO 15.3 
Predicción de la 
clasificación de 
bonos 


Con base en datos de series de tiempo agrupadas y de corte transversal de 200 bonos Aa (alta 
calidad) y Baa (calidad media) de 1961 a 1966, Joseph Cappelleri estimó el siguiente modelo de 
predicción para la clasificación de bonos. !% 


Yi = Bi + B2X3, + P3 X3i + B4X4i + Bs X5i + ui 


donde Y; = 1 si la clasificación del bono es Aa (clasificación de la empresa Moody) 
= 0 si la clasificación del bono es Baa (clasificación de la empresa Moody) 
X2 = razón de capitalización de la deuda, una medida de apalancamiento 
_ valor en dólares de la deuda de largo plazo -100 
valor en dólares de la capitalización total 
X3 = tasa de rentabilidad 
_ valor en dólares del ingreso después de impuestos 
5 valor en dólares de los activos totales netos 
X4 = desviación estándar de la tasa de rentabilidad, una medida de la variabilidad de la 
tasa de rentabilidad 
Xs = activos totales netos (miles de dólares), una medida del tamaño 


100 


A priori, se espera que $2 y Ba sean negativos (¿por qué?) y que £3 y Bs positivos. 
Después de corregir por heteroscedasticidad y por autocorrelación de primer orden, Cappe- 
lleri obtuvo los siguientes resultados:!! 


Y;= 0.6860 — 0.0179X2, + 0.0486X3; + 0.0572Xa; + 0.378(E-7)X5 
(0.1775) (0.0024) (0.0486) (0.0178)  (0.039XE-8) (15.3.1) 
R2= 0.6933 


Nota: 0.378 (E-7) significa 0.0000000378, etcétera. 

Todos los coeficientes, a excepción del asociado a X4, tienen los signos correctos. Dejamos a 
los estudiantes de finanzas que deduzcan la razón por la cual el coeficiente de la variabilidad de 
la tasa de rentabilidad tiene signo positivo, pues se espera que cuanto mayor sea la variabilidad 
en las utilidades, menos probable es que la empresa Moody dé una clasificación Aa, si las demás 
condiciones se mantienen iguales. 

La interpretación de la regresión es clara. Por ejemplo, el 0.0486 asociado a X3 significa que, si 
las demás condiciones se mantienen iguales, un incremento de un punto porcentual en la tasa de 
rendimiento generará, en promedio, alrededor de un 0.05 de incremento en la probabilidad 
de que un bono obtenga la clasificación Aa. En forma similar, cuanto más alta sea la tasa de 
endeudamiento elevada al cuadrado, menor será la probabilidad (en 0.02) de que un bono 
reciba la clasificación Aa por unidad de incremento en esta tasa. 


10 Joseph Cappelleri, “Predicting a Bond Rating”, documento universitario sin publicar, C.U.N.Y. El modelo 
empleado es una modificación del que aparece en Thomas F. Pogue y Robert M. Soldofsky, “What Is in a 
Bond Rating?”, Journal of Financial and Quantitative Analysis, junio de 1969, pp. 201-228. 

11 Algunas probabilidades estimadas antes de corregir por heteroscedasticidad fueron negativas y otras fue- 
ron superiores a 1; para facilitar el cálculo de las ponderaciones w; en estos casos, se supuso que fueron 0.01 
y 0.99, respectivamente. 
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EJEMPLO 15.4 
¿Quién tiene una 
tarjeta de débito? 


Como ocurre con las tarjetas de crédito, en la actualidad es muy común que los consumidores 
usen las de débito. Los comerciantes las prefieren porque cuando se usa una tarjeta de débito, 
la cantidad que uno compra se deduce automáticamente de la cuenta de cheques u otra cuenta 
designada por el usuario. Para averiguar qué factores determinan el uso de la tarjeta de débito, 
obtuvimos datos sobre 60 clientes y consideramos el siguiente modelo:!? 


Y; = b1 + B2X2; + P3 X3i + b4 X4i + Ui 


donde Y = 1 para quien posee una tarjeta de débito, O en otro caso; X2 = saldo de la cuenta 
en dólares; X3 = número de transacciones en cajeros automáticos; X4 = 1 si la cuenta devenga 
intereses, O en caso contrario. 

En vista de que el modelo lineal de probabilidad (MLP) muestra heteroscedasticidad, presen- 
tamos los resultados habituales de MCO y los resultados de MCO corregidos por heteroscedas- 
ticidad en forma tabular. 


Variable Coeficiente Coeficiente* 

Constante 0.3631 0.3631 
(0.1796)** (0.1604)** 

Saldo 0.00028** 0.00028** 
(0.0001 5) (0.00014) 

Cajero automático 0.0269 0.0269 
(0.208) (0.0202) 

Interés -0.3019** -0.3019** 
(0.1448) (0.1353) 

R2 0.1056 (0.1056) 


Nota: * denota errores estándar corregidos por heteroscedasticidad. 
** significativo en el nivel de 5% aproximadamente. 


Como indican estos resultados, los usuarios con saldos más altos en sus cuentas tienden a tener 
tarjeta de débito. Cuanto más alta es la tasa de interés que se paga sobre el saldo de la cuenta, 
menor es la tendencia a tener tarjeta de débito. Aunque la variable cajero automático no es sig- 
nificativa, observe que tiene signo negativo. Esto se debe quizá a las comisiones por transacción 
en cajero automático. 

No existe una gran diferencia entre los errores estándar estimados con y sin corrección por 
heteroscedasticidad. Para ahorrar espacio, no presentamos los valores ajustados (es decir, las 
probabilidades estimadas), pero todas se sitúan entre los límites de O y 1. Sin embargo, no hay 
garantía de que así ocurra en todos los casos. 


15.4 Alternativas al MLP 


Como vimos, el MLP tiene infinidad de problemas, como 1) la no normalidad de los u,, 2) la 
heteroscedasticidad de u;, 3) la posibilidad de que Y, se encuentre fuera del rango 0-1 y 4) los 
valores generalmente bajos de R?. Pero estos problemas son superables. Por ejemplo, se pueden 
utilizar MCP para resolver el problema de heteroscedasticidad o incrementar el tamaño de la 
muestra y reducir así el problema de la no normalidad. Mediante técnicas de mínimos cuadrados 
restringidos o de programación matemática, es posible hacer que las probabilidades estimadas se 
encuentren dentro del intervalo 0-1. 

Pero incluso así, el problema fundamental con el MLP es que lógicamente no es un modelo 
muy atractivo porque supone que P; = E(Y = 1 | X) aumenta linealmente con X, es decir, el efecto 
marginal o incremental de X permanece constante todo el tiempo. Así, en el ejemplo de propiedad 
de vivienda encontramos que, a medida que X aumenta en una unidad ($ 1 000), la probabili- 


12 Los datos empleados en el análisis se obtuvieron de Douglas A. Lind, William G. Marchal y Robert D. 
Mason, Statistical Techniques in Business and Economics, 11a. ed., McGraw-Hill, 2002, apéndice N, pp. 775- 
776. No utilizamos todas las variables que emplearon los autores. 


FIGURA 15.2 


Función de distribución 
acumulativa (FDA). 
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FDA 


dad de ser propietario de una casa aumenta en la misma cantidad constante de 0.10. Esto es así 
independientemente de que el nivel del ingreso sea de $8 000, $10 000, $18 000 o $22 000. Esto 
no sucede jamás en la realidad. En verdad se esperaría que P; estuviera relacionado en forma no 
lineal con X;: con ingresos muy bajos, una familia no será propietaria de una casa, pero en un 
nivel de ingresos lo bastante altos, por ejemplo, X*, es muy probable que sí tenga casa propia. 
Cualquier incremento en el ingreso más allá de X* tendrá un efecto pequeño sobre la probabili- 
dad de tener casa propia. Así, en ambos extremos de la distribución de ingresos, la probabilidad 
de ser dueño de una casa prácticamente no se verá afectada por un pequeño incremento en X. 

Por consiguiente, lo que necesitamos es un modelo (probabilístico) que tenga estas dos carac- 
terísticas: 1) a medida que aumente X;, P; = E(Y = 1 | X) también aumente pero nunca se salga 
del intervalo 0-1, y 2) la relación entre P; y X; sea no lineal, es decir, “uno se acerca a cero con 
tasas cada vez más lentas a medida que se reduce X;, y se acerca a uno con tasas cada vez más 
lentas a medida que X; se hace muy grande”.!* 

En términos geométricos, el modelo que deseamos tendría la forma de la figura 15.2. Observe 
en este modelo que la probabilidad se encuentra entre 0 y 1, y que éste varía en forma no lineal 
con X. 

El lector se dará cuenta de que la curva en forma de S, o sigmoidea, en la figura se parece 
mucho a la función de distribución acumulativa de una variable aleatoria (FDA).!* Por consi- 
guiente, se puede utilizar fácilmente la FDA en regresiones de modelos en los cuales la variable 
de respuesta es dicótoma, para adquirir valores 0-1. La pregunta práctica ahora es, ¿cuál FDA?: 
aunque todas las FDA tienen forma de S, para cada variable aleatoria hay una FDA única. Por 
razones tanto históricas como prácticas, las FDA que suelen seleccionarse para representar los 
modelos de respuesta 0-1 son 1) la logística y 2) la normal; la primera da lugar al modelo logit, 
y la última, al modelo probit (o normit). 

Aunque el análisis detallado de los modelos logit y probit trasciende el alcance de esta obra, 
indicaremos de manera un poco informal el modo de estimar e interpretar tales modelos. 


15.5 El modelo logit 


Continuamos con el ejemplo de propiedad de vivienda para explicar las ideas básicas del modelo 
logit. Recuerde que en la explicación de la propiedad de vivienda en relación con el ingreso, el 
MLP fue 


P; = Bi + PoX; (15.5.1) 


13 John Aldrich y Forrest Nelson, op. cit., p. 26. 

14 Como analizamos en el apéndice A, la FDA de una variable aleatoria X es sencillamente la probabilidad 
de que adopte un valor menor o igual a xp, donde xy es algún valor numérico especificado de X. En resu- 
men, F(X), la FDA de X, es F(X = xo) = P(X < xo). 
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donde X es el ingreso y P; = E(Y; = 1 | X;) significa que la familia es propietaria de una casa. Pero 
considere ahora la siguiente representación de la propiedad de vivienda: 


1 
P, = 1620 (15.5.2) 
Para facilidad de la exposición, escribimos (15.5.2) como 
1 YA 
P E (15.5.3) 


SABE 1 


donde Z; = 61 + b2X;. 

La ecuación (15.5.3) representa lo que se conoce como función de distribución logística 
(acumulativa). 

Es fácil verificar que a medida que Z; se encuentra dentro de un rango de —oo a +00, P; se en- 
cuentra dentro de un rango de 0 a 1, y que P; no está linealmente relacionado con Z; (es decir, con 
X;), lo que satisface los dos requisitos considerados antes.!? Pero parece que al satisfacer estos 
requisitos creamos un problema de estimación, porque P; es no lineal no sólo en X sino también 
en las £, como se ve a partir de (15.5.2). Esto significa que no podemos estimar los parámetros 
con el procedimiento habitual de MCO.!” Pero este problema es más aparente que real porque 
(15.5.2) puede linealizarse, lo cual se demuestra de la siguiente manera. 

Si P;, la probabilidad de tener casa propia, está dada por (15.5.3), entonces (1 — P;), la proba- 
bilidad de no tener casa propia, es 


1 
l — P; = 15.5.4 
1 +e% ( ) 
Por consiguiente, podemos escribir 
P _14e% 
NI (15.5.5) 


1=P,  14+e% 


Ahora P;/(1 — P;) es sencillamente la razón de las probabilidades en favor de tener una casa 
propia: la razón de la probabilidad de que una familia posea una casa propia respecto de la pro- 
babilidad de que no la posea. Así, si P; = 0.8, significa que las posibilidades son 4 a 1 en favor de 
que la familia posea una casa propia. 

Ahora, si tomamos el logaritmo natural de (15.5.5), obtenemos un resultado muy interesante, 
a saber, 


Li = in E ) = Zi 
1 =P, (15.5.6) 


15 El modelo logístico es muy común en análisis de fenómenos de crecimiento, como población, PNB, oferta 
monetaria, etc. Para conocer los detalles teóricos y prácticos de los modelos logit y probit, véase J.S. Kramer, 
The Logit Model for Economists, Edward Arnold, Londres, 1991; y G.S. Maddala, op. cit. 

16 Observe que a medida que Z; > +00, e” % tiende a cero, y a medida que Z; > —oo, e7% aumenta indefi- 
nidamente. Recuerde que e = 2.71828. 

17 Desde luego, se pueden utilizar las técnicas de estimación no lineales analizadas en el capítulo 14. Véase 
también la sección 15.8. 
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es decir, L, el logaritmo de la razón de las probabilidades, no es sólo lineal en X, sino también 
(desde el punto de vista de estimación) lineal en los parámetros.'* L se llama logit, y de aquí el 
nombre modelo logit para modelos como (15.5.6). 

Observe estas características del modelo logit. 


1. A medida que P va de 0 a 1 (es decir, a medida que Z varía de —oo a +00, el logit L va de 
=o0 a +00. Es decir, aunque las probabilidades (por necesidad) se encuentran entre 0 y 1, los 
logit no están acotados en esa forma. 


2. Aunque ZL es lineal en X, las probabilidades en sí mismas no lo son. Esta propiedad con- 
trasta con el MLP (15.5.1), en donde las probabilidades aumentan linealmente con X.!? 


3. Aunque en el modelo anterior incluimos sólo una variable X, o regresora, podemos añadir 
tantas regresoras como indique la teoría subyacente. 


4. Si L, el logit, es positivo, significa que cuando se incrementa el valor de la(s) regresora(s), 
aumentan las posibilidades de que la regresada sea igual a 1 (lo cual indica que sucederá algo de 
interés). Si L es negativo, las posibilidades de que la regresada iguale a 1 disminuyen conforme 
se incrementa el valor de X. Para expresarlo de otra forma, el logit se convierte en negativo y se 
incrementa en gran medida conforme la razón de las probabilidades disminuye de 1 a 0; además, 
se incrementa en gran medida y se vuelve positivo conforme la razón de las probabilidades au- 
menta de 1 a infinito.? 


5. De manera más formal, la interpretación del modelo dado en (15.5.6) es la siguiente: £2, 
la pendiente, mide el cambio en L ocasionado por un cambio unitario en X, es decir, dice cómo 
cambia el logaritmo de las posibilidades en favor de tener una casa propia a medida que el ingreso 
cambia en una unidad, por ejemplo, $1 000. El intercepto $; es el valor del logaritmo de las po- 
sibilidades en favor de tener una casa propia si el ingreso es cero. Al igual que la mayoría de las 
interpretaciones de los interceptos, esta interpretación puede no tener significado físico alguno. 


6. Con un nivel determinado de ingreso, por ejemplo, X*, si de verdad deseamos estimar la 
probabilidad misma de tener una casa propia, y no las posibilidades en favor de tener una casa 
propia, podemos hacerlo directamente a partir de (15.5.3) una vez que dispongamos de las es- 
timaciones de 61 y £2. Pero esto plantea la pregunta más importante: ¿cómo estimar 6, y 2 en 
primer lugar? La respuesta está en la siguiente sección. 


7. Mientras que el MLP supone que P; está linealmente relacionado con X;, el modelo logit 
supone que el logaritmo de la razón de probabilidades está relacionado linealmente con X;. 


15.6 Estimación del modelo logit 


Para fines de estimación, escribimos (15.5.6) de la siguiente manera: 


P; 
Lim z) = ĝi + PX; + ui (15.6.1) 


En breve analizaremos las propiedades del término de error estocástico 4. 


18 Recuerde que el supuesto de linealidad de MCO no requiere que la variable X sea necesariamente lineal. 
Así, podemos tener X?, X?, etc., como regresoras en el modelo. Para nuestro propósito, lo crucial es la linea- 
lidad en los parámetros. 

19 Mediante cálculo, se demuestra que dP/dX = B2P(1 — P), lo cual muestra que la tasa de cambio de la pro- 
babilidad respecto de X contiene no sólo a £2, sino también al nivel de probabilidad a partir del cual se mide 
el cambio (véase más al respecto en la sección 15.7). A propósito, observe que el efecto de un cambio uni- 
tario en X; sobre P es máximo cuando P = 0.5 y mínimo cuando P está cercano a 0 oa 1. 


20 Esta observación la hizo David Garson. 
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TABLA 15.4 

Datos hipotéticos sobre 
X; (ingreso), N; (número 
de familias con ingreso 
X;) y ni (número de fa- 
milias que tienen casa 
propia) 


Para estimar (15.6.1), además de X;, necesitamos los valores de la regresada, o del logit, £;. 
Esto depende del tipo de datos que se analicen. Estos se clasifican en dos categorías: 1) datos de 
nivel individual, o micro, y 2) datos agrupados o duplicados. 


Datos de nivel individual 

Si disponemos de datos sobre familias individuales, como en la tabla 15.1, no es factible la esti- 
mación de (15.6.1) por MCO, lo cual es fácil de ver. En términos de los datos proporcionados en 
la tabla 15.1, P; = 1 si una familia es dueña de una casa y P; = 0 si no tiene casa propia. Pero si 
colocamos estos valores directamente en el logit L;, obtenemos 


1 
L;=lIn (5) si una familia es dueña de una casa 


0 
L;¡=ln (5) si una familia no es dueña de una casa 


Obvio, estas expresiones no tienen sentido. Por consiguiente, si la información disponible está en 
un nivel micro o individual, no podemos estimar (15.6.1) mediante la rutina de MCO estándar. 
En esta situación quizá debamos recurrir al método de máxima verosimilitud (MV) para estimar 
los parámetros. Aunque analizamos los rudimentos de este método en el apéndice del capítulo 
4, su aplicación, en el presente contexto, se presenta en el apéndice 15A, sección 15A.1, como 
consideración a los lectores que deseen aprender más sobre él.?! Programas como MICROFIT, 
EViews, LIMDEP, SHAZAM, PC-GIVE, STATA y MINITAB tienen rutinas internas para esti- 
mar el modelo logit en el nivel individual. Ilustraremos el método de VM más adelante en este 
capítulo. 


Datos agrupados o duplicados 

Ahora considere los datos de la tabla 15.4. Esta tabla proporciona datos agrupados o duplicados 
(observaciones repetidas) sobre diversas familias, de acuerdo con el nivel de ingreso y el número 
de familias que tienen casa propia en cada nivel de ingreso. Correspondiente a cada nivel de in- 
greso X;, hay N; familias, de las cuales n; tienen casa propia (n; < N;). Por consiguiente, si ahora 
calculamos 


A Ni 
P, = N, (15.6.2) 
X 
(miles de dólares) N; ni 
6 40 8 
8 50 12 
10 60 18 
13 80 28 
15 100 45 
20 70 36 
25 65 39 
30 50 33 
35 40 30 
40 25 20 


21 Para un análisis de máxima verosimilitud comparativamente sencillo en el contexto del modelo logit, 
véase John Aldrich y Forrest Nelson, op. cit., pp. 49-54. Véase también Alfred Demaris, Logit Modeling: Practi- 
cal Applications, Sage, Newbury Park, California, 1992. 
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es decir, frecuencia relativa, podemos utilizarla como una estimación de la verdadera P; corres- 
pondiente a cada X;. Si N; es relativamente grande, P; será una estimación razonablemente buena 
de P;.2 Con la P; estimada, podemos obtener el logit estimado como 


A 


P; R "i 
L; =ln i $ = Bi + B2X; (15.6.3) 


lo cual será una estimación relativamente buena del verdadero logit £;, si el número de observa- 
ciones N; en cada nivel X; es razonablemente grande. 

En resumen, con la información agrupada o replicada (observaciones repetidas), como la de 
la tabla 15.4, podemos obtener información sobre la variable dependiente, los logit, para estimar 
el modelo (15.6.1). ¿Podemos entonces aplicar MCO a (15.6.3) y estimar los parámetros en la 
forma usual? La respuesta es: aún no, pues hasta el momento no hemos dicho nada sobre las pro- 
piedades del término de perturbación estocástico. Puede demostrarse que si N; es relativamente 
grande, y si cada observación en una clase de ingreso dado X; está distribuida en forma indepen- 
diente como una variable binomial, entonces 


u;i ~ N fo. JEO (15.6.4) 
N; P;(1 — P;) 
es decir, u; sigue una distribución normal con media cero y varianza igual a 1/[N;P;(1 — P)].” 
Por consiguiente, como en el caso del MLP, el término de perturbación en el modelo logit 
es heteroscedástico. Así, en lugar de MCO, debemos utilizar mínimos cuadrados ponderados 
(MCP). Para fines empíricos; sin embargo, reemplazaremos la P; desconocida por P; y utilizare- 
mos 


22 l 


N¡Pi(1 — P;) 


como estimador de o°. 
Ahora describiremos los diversos pasos en la estimación de la regresión logit (15.6.1): 


1. Para cada nivel de ingreso X, calcule la probabilidad estimada de tener una casa propia como 
P; = n;/Ni. 
2. Por cada X;, obtenga el logit mediante?“ 


L; = n[Ê/0 — Ê)] 


3. Para resolver el problema de heteroscedasticidad, transforme (15.6.1) de la siguiente ma- 


nera:2 


YWiL; = Biwi + Ba/W5X, + Sw, (15.6.6) 


22 De la estadística elemental recuerde que la probabilidad de un evento es el límite de la frecuencia relativa 
a medida que el tamaño de la muestra se hace infinitamente grande. 


23 Como se demuestra en la teoría de probabilidad elemental, ÎÊ;, la proporción de éxitos (en este caso, la 
propiedad de una casa), sigue la distribución binomial con media igual a la verdadera P; y varianza igual a 
P¡(l — Pp)/N; y a medida que N; aumenta indefinidamente, la distribución binomial se aproxima a la distri- 
bución normal. Las propiedades distributivas de u; dadas en (15.6.4) se desprenden de esta teoría básica. 
Hay mayores detalles en Henry Theil, “On the Relationships Involving Qualitative Variables”, American Jour- 
nal of Sociology, vol. 76, julio de 1970, pp. 103-154. 

24 Como Ê; = ni/N;, Li se expresa alternativamente como [;¡= In ni/(N; — ni). A propósito, debe resaltarse que 
para evitar que Î; tome el valor de O o de 1, en la práctica Í ; se mide como Î; = In (n; +4 DIN ni +4 3) = 
In(Ê; +1/2N;)/(1 — Ê + 1/2N;). Se recomienda, como regla práctica, que N; sea por lo menos 5 para cada 
valor de X;. Hay mayores detalles en D.R. Cox, Analysis of Binary Data, Methuen, Londres, 1970, p. 33. 


25 Si estimamos (15.6.1) sin tener en cuenta la heteroscedasticidad, los estimadores, aunque sean insesga- 
dos, no serán eficientes, como sabemos por el capítulo 11. 
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que escribimos como 
L} = Biy/w¡+ B2AF + vi (15.6.7) 


donde las ponderaciones w; = N; Êq — Ê); L* = transformada o ponderada L; X*¥ = X; 
transformada o ponderada, y v; = término de error transformado. Es fácil verificar que el tér- 
mino de error transformado v; es homoscedástico, sin olvidar que la varianza de error original 
es o? = 1/[N;R;(1 — Pol. 

4. Estime (15.6.6) mediante MCO; recuerde que MCP es MCO aplicado sobre los datos trans- 
formados. Observe que en (15.6.6) no hay término de intercepto introducido explícitamente 
(¿por qué?). Por consiguiente, se tendrá que estimar (15.6.6) mediante el procedimiento de 
regresión a través del origen. 


5. Establezca intervalos de confianza y/o pruebas de hipótesis dentro del marco usual de MCO, 
pero tenga en mente que todas las conclusiones serán válidas en estricto sentido si la muestra 
es razonablemente grande (¿por qué?). Por consiguiente, en muestras pequeñas, los resultados 
estimados deben interpretarse con cautela. 


15.7 Modelo logit agrupado (glogit): ejemplo numérico 


Para ilustrar la teoría que acabamos de analizar, utilizaremos los datos de la tabla 15.4. Como 
están agrupados, el modelo logit que se basa en tales datos se llamará modelo logit agrupado, o 
glogit, para abreviar. Los datos necesarios y otros cálculos pertinentes necesarios para instrumen- 
tar el modelo glogit se dan en la tabla 15.5. Los resultados de la regresión con mínimos cuadrados 
ponderados (15.6.7) que se basa en los datos de la tabla 15.5 son los siguientes: observe que no 
hay intercepto en la ecuación (15.6.7); por consiguiente, en este caso resulta apropiado el proce- 
dimiento de regresión a través del origen. 


Lt= -—1.59474,/w,+  0.07862X* 
ee= (0.11046) (0.00539) (15.7.1) 
t = (-14.43619) (14.56675) R? = 0.9642 


R? es el coeficiente de correlación al cuadrado entre la L* verdadera y la estimada. L* y X* son la 
Liy la X; ponderadas, como se muestra en (15.6.6). Aunque presentamos los cálculos del modelo 
logit agrupado en la tabla 15.5 por razones pedagógicas, esto se efectúa fácilmente si se pulsa el 
comando glogit (logit agrupado) en STATA. 


Interpretación del modelo logit estimado 
¿Cómo interpretamos (15.7.1)? Hay diversas formas, algunas intuitivas y otras no, a saber: 


Interpretación Logit 

Como lo muestra (15.7.1), el coeficiente de pendiente estimado indica que para un incremento 
unitario ($1 000) en el ingreso ponderado, el logaritmo ponderado de las posibilidades en favor 
de tener casa propia aumenta en alrededor de 0.08. Esta interpretación mecánica no resulta muy 
atractiva. 


Interpretación de las probabilidades 

Recuerde que L; = In [P,/(1 — P;)]. Por consiguiente, al tomar el antilogaritmo del logit esti- 
mado, se tiene P¡/(1 — P), es decir, la razón de las probabilidades. En consecuencia, al tomar el 
antilog de (15.7.1), obtenemos: 
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TABLA 15.6 

Lstar, Xstar, Lstar 
estimada, probabilidad 
y cambio en la probabi- 
lidad* 


P; z= e7 159474 /wi+0.07862X7 
1- Ê (15.7.2) 


"A * 
= e7 159414 Wi . ¿0.07862X; 


Mediante una calculadora se verifica con facilidad que e®07862 = 1.0817. Lo cual significa que, 


para un incremento unitario en el ingreso ponderado, las posibilidades (ponderadas) en favor de 
ser propietario de una casa aumentan en 1.0817, o alrededor de 8.17%. En general, si se toma 
el antilogaritmo del coeficiente de la j-ésima pendiente (en caso de que haya más de una regre- 
sada en el modelo), se resta uno de este valor y se multiplica el resultado por 100, se obtendrá 
el cambio porcentual en las posibilidades en favor por una unidad de incremento en la j-ésima 
regresora. 

Por cierto, si desea llevar a cabo el análisis en términos del logit no ponderado, sólo necesita 
dividir el LY estimado entre /w;. La tabla 15.6 proporciona el logit ponderado estimado y el no 
ponderado para cada observación, así como algunos otros datos que analizaremos en breve. 


Cálculo de probabilidades 

Como el lenguaje del logit y de la razón de probabilidades puede ser extraño para algunos, siem- 
pre podemos calcular la probabilidad de que una familia con cierto nivel de ingreso posea una 
casa propia. Suponga que deseamos calcular esta probabilidad para X= 20 (20 000). Al insertar 
este valor en (15.7.1), obtenemos Es = —0.09311, y al dividir lo anterior entre /w; = 4.1816 
(véase la tabla 15.5), obtenemos Ê: = —0.02226. En consecuencia, con un nivel de ingreso de 
$20 000, tenemos 


A 


P; 
—0.02199 = In > 
1h, 
Por tanto, 
Ê 
—— 5 e 941% = 0,97825 
l- P; 
Al resolver para 
E e—0.02199 
¿1 p 0.0219 


Probabilidad, Cambio en la 


Lstar Xstar ELstar Logit R probabilidad? 
-3.50710 15.1788 -2.84096 -1.12299 0.24545 0.01456 
-3.48070 24.15920 -2.91648 -0.96575 0.27572 0.01570 
-3.48070 35.49600 -2.86988 -0.80850 0.30821 0.01676 
-2.64070 55.45930 -2.44293 -0.57263 0.36063 0.01813 
-0.99850 74.62350 -2.06652 -0.41538 0.39762 0.01883 

0.16730 83.65060 -0.09311 -0.02226 0.49443 0.01965 
1.60120 98.74250 1.46472 0.37984 0.59166 0.01899 
2.22118 100.48800 2.55896 0.76396 0.68221 0.01704 
3.00860 95.84050 3.16794 1.15677 0.76074 0.01431 
2.77260 80.00000 3.10038 1.55019 0.82494 0.01135 


* Lstar y Xstar se tomaron de la tabla 15.5. ELstar es Lstar estimado. Logit es el logit no ponderado. Probabilidad es la probabilidad esti- 
mada de ser propietario de una casa. Cambio en la probabilidad es el cambio por unidad de cambio en el ingreso. 
t Calculado con base en BA — Ê) = 0.07862 Pa — Ê). 


FIGURA 15.3 
Cambio en la probabilidad 
en relación con el ingreso. 
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el lector puede percatarse de que la probabilidad estimada es 0.4945. Es decir, con el ingreso de 
$20 000, la probabilidad de que una familia sea dueña de una casa es de casi 49%. La tabla 15.6 
muestra las probabilidades así calculadas para diversos niveles de ingreso. Como se ve en dicha 
tabla, la probabilidad de que una familia tenga casa propia se incrementa, pero no de manera 
lineal como en el modelo MLP. 


Cálculo de la tasa de cambio de la probabilidad 

Como se corrobora en la tabla 15.6, la probabilidad de tener una casa propia depende del nivel 
de ingreso. ¿Cómo podemos calcular la tasa de cambio de las probabilidades conforme varía el 
ingreso? Como vimos en la nota 19, eso depende no sólo de la pendiente estimada del coeficiente 
ß2, sino también del nivel de la probabilidad con que se mida el cambio; desde luego, esto último 
depende del ingreso con que se calcula la probabilidad. 

Para ilustrar lo anterior, suponga que deseamos medir el cambio en la probabilidad de ser 
propietario de una casa con un nivel de ingreso de $20 000. Así, de acuerdo con la nota 19, el 
cambio en la probabilidad correspondiente al incremento en una unidad del ingreso para el nivel 
20 (miles) es: Ê(1 — Ê) Ê = 0.07862(0.5056)(0.4944) = 0.01965. 

Como ejercicio, el lector demostrará que, con un nivel de ingreso de $40 000, el cambio en 
la probabilidad es de 0.01135. La tabla 15.6 suministra el cambio en la probabilidad de ser pro- 
pietario de una casa con diversos niveles de ingreso; dichas probabilidades también se ilustran 
en la figura 15.3. 

Para concluir el análisis de los modelos logit, presentamos a continuación los resultados de 
la regresión basados en MCO, o regresión no ponderada, para el ejemplo de propiedad de vi- 
vienda: 


L;¡= —1.6587 + 0.0792X; 
ee= (0.0958) (0.0041) (15.7.3) 
t=(—17.32) (19.11) r2? = 0.9786 


Se deja al lector la tarea de comparar esta regresión con la de mínimos cuadrados ponderados 
presentada en la ecuación (15.7.1). 


15.8 El modelo logit para datos no agrupados o individuales 


A fin de establecer el contexto, considere los datos de la tabla 15.7. Sea Y = 1, si la calificación 
final de un estudiante en un curso intermedio de microeconomía fue A, y Y = 0 si esa califica- 
ción final fue B o C. Spector y Mazzeo utilizaron el GPA (promedio de puntos de calificación), 
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Temas de econometria 


TABLA 15.7 Datos sobre el efecto del Sistema de Enseñanza Personalizada (PSL, por sus sigas en inglés) sobre las 


calificaciones 
Califi-  Califi- Califica- Califi-  Califi- Califica- 
Observa- cación cación Califi- ción con Observa- cación cación Califi- ción con 
ción GPA TUCE PSI cación letra ción GPA TUCE PSI cación letra 
1 2.66 20 (0) (0) € 17 2.75 25 0 0 C 
2 2.89 22 0 0 B 18 2.83 19 0 0 E 
3 3.28 24 0 0 B 19 3.12 23 1 0 B 
4 2.92 12 0 0 B 20 3.16 25 1 1 A 
5 4.00 21 0 1 A 21 2.06 22 1 0 C 
6 2.86 17 (0) (0) B 22 3.62 28 1 1 A 
7 2.76 17 (0) (0) B 23 2.89 14 1 (0) € 
8 2.87 21 (0) (0) B 24 3.51 26 1 (0) B 
9 3.03 25 0 0 (€ 25 3.54 24 1 1 A 
10 3.92 29 0 1 A 26 2.83 27 1 1 A 
11 2.63 20 0 (0) E 27 3.39 17 1 1 A 
12 3.32 23 0 (0) B 28 2.67 24 1 (0) B 
13 3.57 23 (0) (0) B 29 3.65 21 1 1 A 
14 3.26 25 (0) 1 A 30 4.00 23 1 1 A 
15 3.53 26 (0) (0) B 31 3.10 21 1 (0) C 
16 2.74 19 (0) (0) B 32 2.39 19 1 1 A 


Notas: Calificación Y = 1 si la calificación final fue A 


Y = 0 si la calificación final fue B o C 


TUCE = calificación en un examen presentado al comienzo del curso para evaluar los conocimientos previos de macroeconomia 


PSI = 1 con el nuevo método de enseñanza 


= 0 en otro caso 
GPA = promedio de puntos de calificación inicial 
Fuente: L. Spector y M. Mazzero, “Probit Analysis and Economic Education”, Journal of Economic Education, vol. 11, 1980, pp. 37-44. 


TUCE y PSI (Sistema de Enseñanza Personalizada) de Estados Unidos como predictores de la 
calificación. El modelo logit en este caso se expresa como: 


L;¡=ln h o ) = Bi + B2GPA, + B3TUCE; + B4PSI, + ui (15.8.1) 
1 

Como vimos en la sección 15.6, no podemos poner simplemente P;= 1 si una familia es pro- 
pietaria de una casa y cero si no lo es. En esta situación, no resultan útiles los MCO ni los MCP. 
Tenemos que recurrir a procedimientos de cálculo no lineales con el método de máxima verosl- 
militud. Los detalles de tal método se proporcionan en el apéndice 15A, sección 15A.1. En vista 
de que el software estadístico más moderno cuenta con rutinas para estimar los modelos logit 
con base en datos no agrupados, presentaremos los resultados del modelo (15.8.1), que utiliza los 
datos de la tabla 15.7, y mostraremos la manera de interpretar dichos resultados, mismos que se 
presentan en la tabla 15.8 en forma tabular. Obtuvimos estos resultados con EViews 6. Antes de 
interpretarlos debemos tener en cuenta las siguientes observaciones generales: 


1. Como empleamos el método de máxima verosimilitud, que en general es para muestras 
grandes, los errores estándar estimados son asintóticos. 


2. Como resultado, en vez del estadístico t para evaluar la importancia estadística de un co- 
eficiente, empleamos el estadístico (normal estandarizado) Z, por lo que las inferencias se basan 
en la tabla normal. Recuerde que si el tamaño de la muestra es razonablemente grande, la distri- 
bución f converge a la distribución normal. 


3. Como ya mencionamos, la medida convencional de la bondad de ajuste, R?, no es particu- 
larmente significativa para los modelos con regresada binaria. Existen diversas medidas similares 


TABLA 15.8 
Resultados de la re- 
gresión de la ecuación 
(15.8.1) 
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Variable dependiente: Calificación 
Método: Logit binario MV 
Convergencia lograda después de 5 iteraciones 


Variable Coeficiente Error estándar Estadístico Z Probabilidad 


€ -13.0213 4.931 -2.6405 0.0082 

GPA 2.8261 1.2629 Do DST 0.0252 

TUCE 0.0951 0.1415 0.67223 0.5014 

PSI 2.3786 1.0645 2.2345 0.0255 
R? McFadden = 0.3740 Estadístico RV (3 gl) = 15.40419 


a R?, llamadas pseudo R?.2% EViews presenta una de esas medidas, la R? McFadden, denotada 
como R?yer, cuyo valor para el ejemplo presente es de 0.3740.27 Al igual que R?, R?mcr también 
varía entre O y 1. Otra medida de ajuste comparativamente simple es la cuenta R?, que se define 
como: 


número de predicciones correctas 


Cuenta R? = (15.8.2) 


número total de observaciones 
Como la regresada en el modelo logit toma el valor de 1 o de 0, si la probabilidad pronosticada 
es mayor que 0.5, se clasifica como si fuese 1, pero si es menor que dicho valor, se considera 0. 
Así, se cuenta el número de predicciones correctas y se calcula R? como la dada en (15.8.2). En 
breve ilustraremos esto. 
Debe notarse que, sin embargo, en los modelos con regresada binaria, la bondad del ajuste 
tiene una importancia secundaria. Lo que interesa son los signos esperados de los coeficientes de 
la regresión y su importancia práctica y/o estadística. 


4. A fin de probar la hipótesis nula respecto de que todos los coeficientes de pendiente son 
simultáneamente iguales a cero, el equivalente de la prueba F en el modelo de regresión lineal es 
el estadístico de la razón de verosimilitud (RV). Con la hipótesis nula, el estadístico RV sigue 
la distribución x? con gl igual al número de variables explicativas, tres para el presente ejemplo. 
(Vota: Excluya el término del intercepto para el cálculo de los gl.) 


Ahora interpretemos los resultados de la regresión dados en (15.8.1). En esta ecuación, cada 
coeficiente de pendiente es un coeficiente de pendiente parcial y mide el cambio en el logit esti- 
mado correspondiente a una unidad de cambio del valor de la regresada dada (con las demás re- 
gresoras constantes). Por tanto, el coeficiente del GPA igual a 2.8261 significa que, mientras las 
demás variables se mantengan constantes, si el GPA se incrementa en una unidad, en promedio 
el logit estimado aumenta casi 2.83 unidades, lo cual indica una relación positiva entre ambos. 
Como se aprecia, todas las demás regresoras tienen un efecto positivo en el logit, a pesar de que 
en términos estadísticos el efecto de TUCE no es importante. No obstante, todas las regresoras 
en conjunto tienen un impacto importante en la calificación final, pues el estadístico RV es igual 
a 15.40, cuyo valor p es de casi 0.0015, el cual resulta muy pequeño. 

Como dijimos antes, una interpretación más significativa se da en términos de las posibili- 
dades en favor, las cuales se obtienen al tomar el antilogaritmo de los diversos coeficientes de 
pendiente. En consecuencia, si tomamos el antilogaritmo del coeficiente de PSI, igual a 2.3786, 


26 Para un análisis comprensible, véase J. Scout Long, Regression Models for Categorical and Limited Dependent 
Variables, Sage, Newbury Park, California, 1997, pp. 102-113. 

27 Técnicamente, esto se define como: 1 — (FLV¡,/FLV;,), donde FLV; es la función logaritmo de verosimilitud 
irrestricta, para la cual se incluyen en el modelo todas las regresoras, y FLV, es la función logaritmo de ve- 
rosimilitud restringida para la cual sólo se incluye el intercepto en el modelo. Conceptualmente, FLV; es el 
equivalente de la SCR y FLV, es el equivalente de la SCT del modelo de regresión lineal. 
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TABLA 15.9 


Valores reales y ajusta- 
dos con base en la regre- 
sión de la tabla 15.8 


Temas de econometria 


Observación Real Ajustado Residuo Gráfico de residuos 

1 0 0.02658 -0.02658 

2 0 0.05950 -0.05950 

3 0 0.18726 -0.18726 

4 0 0.02590 -0.02590 

5 1 0.56989 0.43011 

6 0 0.03486 -0.03486 

7 0 0.02650 -0.02650 

8 0 0.05156 -0.05156 

9 0 0.11113 -0.11113 
10 1 0.69351 0.30649 
11 0 0.02447 -0.02447 
12 0 0.19000 -0.19000 
13 0 0.32224 -0.32224 
*14 1 0.19321 0.80679 
15 0 0.36099 -0.36099 
16 0 0.03018 -0.03018 
17 0 0.05363 -0.05363 
18 0 0.03859 -0.03859 
*19 0 0.58987 -0.58987 
20 1 0.66079 0.33921 
21 0 0.06138 -0.06138 
22 1 0.90485 0.09515 
23 0 0.24177 -0.24177 
*24 0 0.85209 -0.85209 
25 1 0.83829 0.16171 
*26 1 0.48113 0.51887 
27 1 0.63542 0.36458 
28 0 0.30722 -0.30722 
29 1 0.84170 0.15830 
30 1 0.94534 0.05466 
*31 0 0.52912 -0.52912 
*32 1 0.11103 0.88897 


* Predicciones incorrectas. 


obtendremos 10.7897 (~ e?3786), Esto indica que los estudiantes expuestos al nuevo método de 
enseñanza son por encima de 10 veces más propensos a obtener una A que quienes no están ex- 
puestos al nuevo método, en tanto no cambien los demás factores. 

Suponga que deseamos calcular la probabilidad real de que un estudiante obtenga una cali- 
ficación de A. Considere al estudiante 10 de la tabla 15.7. Al introducir los datos reales de este 
estudiante en el modelo logit estimado, dado en la tabla 15.8, puede verificar que el valor logit 
estimado para dicho estudiante es igual a 0.8178. Con la ecuación (15.5.2) puede verificar con 
facilidad que la probabilidad estimada es 0.69351. Como la calificación final real del estudiante 
fue A y el modelo logit asigna una probabilidad de 1 a un estudiante que obtiene una A, la proba- 
bilidad estimada de 0.69351 no es exactamente 1, pero se le aproxima. 

Recuerde la cuenta R? ya definida. La tabla 15.9 proporciona los valores reales y pronostica- 
dos de la regresada para el ejemplo ilustrativo. En esta tabla se observa que, de las 32 observa- 
ciones, hubo 6 pronósticos incorrectos (estudiantes 14, 19, 24, 26, 31 y 32). Por tanto, el valor 
de la cuenta R? es 26/32 = 0.8125, en tanto que el valor R? McFadden es 0.3740. Aunque estos 
dos valores no se pueden comparar de manera directa, dan una idea de los órdenes de magnitud. 
Además, no se debe sobrevalorar la importancia de la bondad de ajuste en modelos para los que 
la regresada es dicótoma. 
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EJEMPLO 15.5 Ya estudiamos los resultados del modelo lineal de probabilidad (MLP) aplicado a los datos de 
¿Quién tiene tarjeta tarjetas de débito bancarias, por lo que ahora aplicaremos el modelo logit. Los resultados son 


de débito? Análisis ia 


logit Variable dependiente: DÉBITO 
Método: Logit binario MV (ascenso de colina cuadrático) 
Muestra: 1-60 
Observaciones incluidas: 60 
Convergencia lograda después de 4 iteraciones 
Matriz de covarianza calculada con segundas derivadas 


Variable Coeficiente Error estándar Estadístico z Probabilidad 


(E -0.574900 0.785787 -0.731624 0.4644 
Saldo 0.001248 0.000697 SOS) 0,0735 
Cajero automático OREA 0/ 2245 0.093984 LADOS 0.2008 
Interés -1.352086 0.680988 -1.985478 0.0471 
R cuadrada McFadden 0.080471 Media de la variable dependiente 0.433333 
Desviación estándar de la variable Error estándar de la regresión 0.486274 
dependiente 0.499717 Suma de cuadrados residual 13.24192 
Criterio de información de Akaike Ie SONENS Log verosimilitud -37.75024 
Criterio de Schwarz 1531298 Log verosimilitud restr. -41.05391 
Criterio de Hannan-Quinn 1.446289 Promedio log verosimilitud -0.629171 
Estadístico RV 6.607325 
Probabilidad (estadístico RV) 0.085525 
Os. DOnIDeE» = 0 34 Total de obs. 60 
Giss con Dep = 1i 26 


El signo positivo de Saldo y los signos negativos de Cajero automático e Interés se asemejan a 
los del MLP, aunque no podemos establecer una comparación directa entre los dos. La inter- 
pretación de los coeficientes en el modelo logit difiere de la del MLP. En este caso, por ejemplo, 
si la tasa de interés aumenta un punto porcentual, el logit disminuye alrededor de 1.35, si las 
demás variables permanecen constantes. Si tomamos el antilogaritmo de —1.352086, obtene- 
mos casi 0.2587. Esto significa que si se paga una tasa de interés sobre los saldos de las cuentas, 
es probable que, en promedio, sólo alrededor de uno de cada cuatro clientes tenga una tarjeta 
de débito. 

Con base en el estadístico RV estimado, observamos que, en conjunto, las tres variables son 
estadísticamente significativas en el nivel aproximado de 8.5%. Si usamos el nivel convencional 
de significancia de 5%, estas variables son sólo marginalmente significativas. 

El valor R? McFadden es muy bajo. Con los datos, el lector podrá averiguar el valor de la 
cuenta R?. 

Como ya señalamos, a diferencia del MLP, los coeficientes de pendiente no dan la tasa de 
cambio de la probabilidad por cada unidad de cambio en la regresora. Es necesario calcularlos 
como se muestra en la tabla 15.6. Por fortuna, esta tarea manual no es necesaria, pues hay 
programas estadísticos, como el STATA, que lo hacen de forma rutinaria. En este ejemplo los 
resultados son los siguientes: 

Efectos marginales después de logit: 


Y = Pr(débito)(pronóstico) 


= .42512423 
Variable dy/dx Error estándar z ps Jal D ORR E7 To l Ze 
Saldo | .000305 .00017 L. 79 0.073 -.000029 .000639 1 499.87 
Interés* | SAID cis SIDA 0.020 4552595 -.046199 .266667 
Cajero automático | -.0293822 702297 R28 0.201 -.074396 ¿OLSES HORS 


* dy/dx representa el cambio discreto de la variable dicótoma de 0 a 1. 


(continúa) 
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EJEMPLO 15.5 
(continuación) 


El coeficiente 0.000305 indica que los clientes que mantienen saldos altos tienen 0.03% 
más probabilidades de tener una tarjeta de débito, pero si la tasa de interés aumenta un punto 
porcentual, la probabilidad de tener una tarjeta de débito disminuye casi 30%. El coeficiente 
de Cajero automático, aunque estadísticamente insignificante, indica que si las transacciones en 
cajero automático aumentan una unidad, la probabilidad de tener una tarjeta de débito dismi- 
nuye casi 2.9 por ciento. 


15.9 Modelo probit 


Como mencionamos, para explicar el comportamiento de una variable dependiente dicótoma es 
preciso utilizar una función de distribución acumulativa (FDA) seleccionada apropiadamente. El 
modelo logit utiliza la función logística acumulativa, como se indica en (15.5.2), pero no es la 
única FDA posible. En algunas aplicaciones, la FDA normal se ha encontrado útil. El modelo de 
estimación que surge de una FDA? normal se conoce comúnmente como modelo probit, aunque 
algunas veces también como modelo normit. En principio, se puede sustituir la FDA normal por 
la FDA logística en (15.5.2) y proceder como en la sección 16.5. Pero en lugar de seguir este ca- 
mino, presentaremos el modelo probit basado en la teoría de la utilidad, o de la perspectiva de se- 
lección racional con base en el comportamiento, según el modelo desarrollado por McFadden.? 
Para motivar el modelo probit, suponga que en el ejemplo de propiedad de vivienda, la decisión 
de la ¡-ésima familia de tener casa propia o de no tenerla depende de un índice de conveniencia 
no observable I; (también conocido como variable latente), determinado por una o diversas va- 
riables explicativas, digamos, el ingreso X;, de manera que entre mayor sea el valor del índice /;, 
mayor será la probabilidad de que la familia posea vivienda. Expresamos el índice /; como 


L = bı + B2X; (15.9.1) 


donde X; es el ingreso de la i-ésima familia. 

¿Cómo se relaciona el índice (no observable) con la decisión real de ser propietario de una 
casa? Igual que antes, sea Y = 1 si una familia es propietaria de una casa y Y =0 si no lo es. 
Ahora bien, es razonable suponer que para cada familia hay un nivel crítico o umbral del ín- 
dice, que podemos denominar /;*, tal que si J; excede a f;*, la familia tendrá una casa propia, de 
lo contrario no lo hará. El umbral 7¥, al igual que /;, no es observable, pero si suponemos que 
está distribuido normalmente con las mismas media y varianza, es posible no sólo estimar los 
parámetros del índice dado en (15.9.1), sino también obtener alguna información sobre el propio 
índice no observable. Este cálculo se muestra de la siguiente manera. 

Con el supuesto de normalidad, la probabilidad de que /* sea menor o igual que /; se calcula a 


partir de la FDA normal estándar como:*% 


P; = P(Y = 1| X) = POUŤ < L) = P(Z; < Bi + P2X;) = F(B1 + B2X;) 
(15.9.2) 


28 Véase el apéndice A para un análisis de la FDA normal. Brevemente, si una variable X sigue la distribu- 
ción normal con media y y varianza o?, su FDP es 


1 


201 


e Xu)? 120? 


f(X) = 


y su FDA es 


x 
o 
a 
_ 


EQO= ¿A? /20? 
9 S ~v 2027 


donde Xo es algún valor especificado de X. 

22 D, McFadden, “Conditional Logit Analysis of Qualitative Choice Behaviour”, en P. Zarembka (ed.), Fron- 
tiers in Econometrics, Academic Press, Nueva York, 1973. 

30 Una distribución normal con media cero y varianza unitaria (= 1) se conoce como variable normal están- 
dar o estandarizada. (Véase el apéndice A.) 


FIGURA 15.4 
Modelo probit: a) dado 
Í;, lea P; en la ordenada; 
b) dado P;, lea /; en la 
abscisa. 
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P; = F(L,) P; = F(I;) 


Pr (I< 1) 


| 
l 
| 
| 
| 
| 
Á 
| 


l¡= B +b2 X; 


a) b) 


donde P(Y = 1| X) significa la probabilidad de que un suceso ocurra dado(s) el (los) valor(es) 
de X o la(s) variable(s) explicativa(s), y donde Z; es la variable normal estandarizada; es decir, 
Z ~ N(0, 0?). F es la FDA normal estándar, que, escrita de manera explícita en el presente con- 
texto, es: 


F(I) = -2/2 dz 


1 1 
peo e 
N 27 i 

(15.9.3) 
Bi+B2X; 


1 f 2 
— —z*/2 
= e dz 
~v 2m J-o 
Como P representa la probabilidad de que ocurra un suceso, en este caso la probabilidad de 
tener casa propia, se mide por el área de la curva normal estándar de —oo a /¡, como se muestra 
en la figura 15.4a. 


Ahora, para obtener información sobre /;, el índice de utilidad, lo mismo que para B| y B,, se 
toma la inversa de (15.9.2) para obtener 


l,=F"U1)= FP) 
= fı + PX; 


(15.9.4) 


donde F7! es la inversa de la FDA normal. El significado de todo esto se aclara con la figura 15.4. 
En el panel a) de esta figura se obtiene (de la ordenada) la probabilidad (acumulada) de tener casa 
propia dado 7* < I; mientras que en el panel b) se obtiene (de la abscisa) el valor de J; dado el 
valor de P;, que es simplemente el inverso del primero. 

Pero, específicamente, ¿cómo obtenemos el índice /; al igual que las estimaciones de 81 y 62? 
Como en el caso del modelo logit, la respuesta depende que se cuente con datos agrupados o 
desagrupados. Consideramos los dos casos de manera individual. 


Estimación de probit con datos agrupados: gprobit 


Utilizaremos los mismos datos que para glogit, los cuales se muestran en la tabla 15.4. Como ya 
tenemos Ê, la frecuencia relativa (la medida empírica de probabilidad) de poseer una casa propia 
para diversos niveles de ingresos, como se muestra en la tabla 15.5, con ella obtenemos /; de la 
FDA normal, como se muestra en la tabla 15.10, o en la figura 15.5. 
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TABLA 15.10 
Estimación del índice 
I; de la FDA normal 
estándar 


FIGURA 15.5 
FDA normal. 


P; j= EMP) 
0.20 —0.8416 
0.24 —0.7063 
0.30 —0.5244 
0.35 0.3853 
0.45 0.1257 
0.51 0.0251 
0.60 0.2533 
0.66 0.4125 
0.75 0.6745 
0.80 0.8416 


Notas: 1) Los P, provienen de la tabla 15.5; 2) los J; se calculan de la FDA normal 
estándar. 


Una vez estimado el /;, estimar 6, y £2 es un asunto relativamente sencillo, como mostraremos 
en breve. A propósito, observe que en el lenguaje del análisis probit, el índice de utilidad no ob- 
servable J; se conoce simplemente como desviación equivalente normal (d.e.n.) o sólo normit. 
Como la d.e.n. o I; será negativa siempre que P; < 0.5, en la práctica se agrega el número 5 a la 
d.e.n. y el resultado se denomina un probit. 


EJEMPLO 15.6 
Ilustración de 
gprobit mediante el 
ejemplo de propie- 
dad de una casa 


Continuemos con el ejemplo de propiedad de una casa. Ya presentamos los resultados de los 
modelos glogit para este ejemplo. Los resultados del probit agrupado (gprobit) de los mismos 
datos son los siguientes: 

Con la d.e.n. (= /) dada en la tabla 15.10, los resultados de la regresión son los de la tabla 
15.11.21 Los resultados de la regresión basados en los probits (= d.e.n. + 5) se dan en la ta- 
bla 15.12. 

A excepción del término del intercepto, estos resultados son idénticos a los de la tabla ante- 
rior. Pero esto no debe sorprender. (¿Por qué?) 


31 Los siguientes resultados no están corregidos por heteroscedasticidad. En el ejercicio 15.12 se propone un 
procedimiento apropiado con el objeto de corregir la heteroscedasticidad. 


EJEMPLO 15.6 
(continuación) 
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TABLA 15.11 


Variable dependiente: I 


Variable Coeficiente Error estándar Estadístico t Probabilidad 


& =1 OLEG 0:0572 SUI VA TB; 10397207 
Ingreso 0.04846 0.00247 11975585 4.8547E-08 


R? = 0.97951 Estadístico de Durbin-Watson = 0.91384 


TABLA 15.12 


Variable dependiente: Probit 


Variable Coeficiente Error estándar Estadístico t Probabilidad 


C S JESIS) 0.05728 69.5336 ANDAS 
Ingreso 0.04846 0.00247 1Om5585 4.8547E-08 


R? = 0.9795 Estadístico de Durbin-Watson = 0.9138 


Nota: Estos resultados no están corregidos por heteroscedasticidad (véase el ejercicio 15.12). 


Interpretación de las estimaciones de probit en la tabla 15.11 


¿Cómo interpretamos los resultados anteriores? Suponga que deseamos averiguar el efecto de 
una unidad de cambio en X (ingreso medido en miles de dólares) sobre la probabilidad de que 
Y = 1; es decir, que una familia adquiera una casa. Para hacerlo, examine la ecuación (15.9.2). 
Deseamos tomar la derivada de esta función respecto de X (es decir, la tasa de cambio de la pro- 
babilidad respecto del ingreso). Resulta que su derivada es: 


dP; 
dX; 


donde f(81 + 62X;) es la función de densidad de probabilidad de la normal estandarizada eva- 
luada en 6, + 2X;. Resulta evidente que esta evaluación dependerá del valor particular de las 
variables X. Tome el valor de X de la tabla 15.5, por ejemplo, X = 6 (miles de dólares). Con 
los valores estimados de los parámetros proporcionados en la tabla 15.11, deseamos encontrar 
la función de densidad normal en f[—1.0166 + 0.04846(6)] = f(—0.72548). Si consulta las 
tablas de distribución normal, encontrará que para Z = —0.72548, la densidad normal es casi 
de 0.3066. Ahora, si multiplica ese valor por el coeficiente de pendiente estimado de 0.04846, 
obtiene 0.01485. Esto significa que si empieza con un nivel de ingreso de $6 000 y el ingreso 
aumenta $1 000, la probabilidad de que una familia compre una casa se incrementa alrededor de 
1.4%. (Compare este resultado con el de la tabla 15.6.) 

Como se ve en el análisis anterior, el cálculo de cambios en la probabilidad mediante el mo- 
delo probit resulta un poco tedioso, en comparación con los modelos MLP y logit. 

En vez de calcular los cambios en la probabilidad, suponga que deseamos encontrar las pro- 
babilidades estimadas a partir del modelo gprobit ajustado. Esto se realiza con facilidad. Con los 


= J(B1 + P2Xi)P2 (15.9.5)% 


32 Utilizamos la regla de la cadena de las derivadas: 
dP; dF(t) dt 
dXi dt dX 
donde t = Bi+ B2Xi;. 


33 Observe que la normal estandarizada Z puede variar de —oo hasta +00, pero la función de densidad f(Z) 
siempre es positiva. 
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TABLA 15.13 


TABLA 15.14 
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datos de la tabla 15.11 y al intercalar los valores de X de la tabla 15.5, el lector puede verificar 
que los valores estimados n.i.d. (hasta dos dígitos) son los siguientes: 


X 6 8 10 13 15 20 25 30 35 40 
n.i.d. estimados —0.72 —0.63 —0.53 —0.39 —0.29 —0.05 0.19 0.43 0.68 0.92 


En la actualidad, los programas estadísticos como MINITAB calculan fácilmente las probabili- 
dades (acumulativas) asociadas a los diversos n.i.d. Por ejemplo, la probabilidad estimada co- 
rrespondiente a un valor n.i.d. de —0.63 es igual a 0.2647, y la correspondiente a un valor n.i.d. 
de 0.43 es de 0.6691. Si comparamos estas estimaciones con los valores reales dados en la tabla 
15.5, encontrará que ambos están muy cercanos entre sí, lo cual indica que el modelo ajustado es 
bastante bueno. Gráficamente, lo que acabamos de realizar ya se presentó en la figura 15.4. 


El modelo probit para datos no agrupados o individuales 


Vuelva a examinar la tabla 15.7, que proporciona los datos de 32 individuos respecto de sus ca- 
lificaciones finales en los exámenes de microeconomía intermedia, en relación con las variables 
GPA, TUCE y PSI. Los resultados de la regresión logit se presentan en la tabla 15.8. Vea cómo 
lucen los resultados probit. Observe que, como en el caso del modelo logit para datos individua- 
les, tendremos que utilizar un procedimiento de cálculo no lineal basado en el método de máxima 
verosimilitud. Los resultados de la regresión calculados mediante EViews 6 se dan en la tabla 
15.13. 

“Cualitativamente”, los resultados del modelo probit se pueden comparar con los obtenidos 
mediante el modelo logit, pues tanto GPA como PSI son estadísticamente significativas en lo in- 
dividual. En conjunto, todos los coeficientes son estadísticamente significativos, pues el valor del 
estadístico RV es 15.5458, con un valor p de 0.0014. Por razones dadas en secciones posteriores, 
no podemos comparar de manera directa los coeficientes de regresión logit y probit. 

Para propósitos comparativos, presentamos los resultados basados en el modelo lineal de 
probabilidad (MLP) para los datos de calificaciones de la tabla 15.14. De nuevo, cualitativa- 


Variable dependiente: Calificación 
Método: Probit binario MV 
Convergencia lograda después de 5 iteraciones 


Variable Coeficiente Error estándar Estadístico Z Probabilidad 


E A52 S) 2.5424 SA OD Ii 0.0033 
GPA 1.6258 0.6938 AO) 0), OS 
TUCE (0), 057 0.0838 0.6166 0.5374 
PSI 1.4263 59510 ALIS TO 0.0165 
Estadístico RV (3 gl) = 15.5458 R? McFadden = 0.3774 


Probabilidad (estadístico RV) = 0.0014 


Variable dependiente: Calificación 


Variable Coeficiente Error estándar Estadístico t Probabilidad 


€ -1.4980 0.5238 -2.8594 0.0079 
GPA 0.4638 0) LS iLS) 2.8640 0.0078 
TUCE 0.0104 0.0194 0.0306 0.5943 
PSI 0.3785 0.1391 Ao AOG 0.0110 


R? = 0.4159 Estadístico d de Durbin-Watson = 2.3464 
Estadístico F = 6.6456 
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mente, los resultados MLP resultan similares a los de los modelos logit y probit, pues GPA y PSI 
son estadísticamente significativos en lo individual, pero TUCE no lo es. Asimismo, las varia- 
bles explicativas en conjunto tienen un gran efecto en la calificación, pues el valor F de 6.6456 
es estadísticamente significativo: su valor p es sólo de 0.0015. 


Efecto marginal de un cambio unitario en el valor 

de una regresora sobre los diversos modelos de regresión 

En el modelo de regresión lineal, el coeficiente de la pendiente mide el cambio en el valor pro- 
medio de la regresada, debido a una unidad de cambio en el valor de la regresora, con las demás 
variables constantes. 

En el MLP, el coeficiente de la pendiente mide directamente el cambio en la probabilidad de 
que ocurra un evento, como resultado de una unidad de cambio en el valor de la regresora, con 
un efecto constante de todas las demás variables. 

En el modelo logit, el coeficiente de la pendiente de una variable indica el cambio en el loga- 
ritmo de las posibilidades en favor de que ocurra un evento asociadas a una unidad de cambio 
en esa variable, de nuevo, con todas las demás variables constantes. Pero como ya dijimos, para 
el modelo logit la tasa de cambio en la probabilidad de que ocurra un suceso está dada por BP; 
(1 — P;), donde £; es el coeficiente (de regresión parcial) de la ¡-ésima regresora. Pero al evaluar 
P;, participan todas las variables incluidas en el análisis. 

En el modelo probit, como ya vimos, la tasa de cambio de la probabilidad es un tanto compli- 
cada y está dada por B;f(Z;), donde AZ; es la función de densidad de la variable normal estanda- 
rizada y Z; = B¡ + B2Xzi + - - - + BrXAz es decir, el modelo de regresión utilizado en el análisis. 

Por tanto, en los modelos probit y logit todas las regresoras intervienen en el cálculo de los 
cambios en la probabilidad, en tanto que en el MLP sólo participa la j-ésima regresora. Esta 
diferencia tal vez sea la razón de la anterior popularidad del modelo MLP. Los programas esta- 
dísticos como STATA facilitan ahora en gran medida la tarea de calcular la tasa de cambio de la 
probabilidad en los modelos logit y probit. Por tanto, en la actualidad no hay necesidad de elegir 
el MLP sólo por su sencillez. 


15.10 Modelos logit y probit 


Aunque para el ejemplo de las calificaciones los modelos logit, probit y MLP dan cualitati- 
vamente resultados semejantes, nos centraremos en los modelos logit y probit, en vista de los 
problemas con el MLP ya mencionados. De los modelos logit y probit, ¿cuál preferiría? Para la 
mayoría de las aplicaciones, los modelos son muy semejantes; la principal diferencia es que la 
distribución logística tiene colas un poco más anchas, lo cual se observa en la figura 15.6. Lo an- 
terior significa que la probabilidad condicional P; se aproxima a cero o a uno con una tasa menor 
en el modelo logit, en comparación con el probit. Esto se observa con mayor claridad en la tabla 
15.15. Por consiguiente, no existe una razón de peso para elegir uno y no otro. En la práctica, 
muchos investigadores eligen el modelo logit debido a su comparativa simplicidad matemática. 
Aunque los modelos son similares, se debe tener cuidado al interpretar los coeficientes esti- 
mados por ambos modelos. Por ejemplo, para el caso de las calificaciones, el coeficiente de GPA, 
igual a 1.6528 en el modelo probit (tabla 15,13) e igual a 2.8261 en el modelo logit (tabla 15.8), 
no son directamente comparables. La razón es que aunque las distribuciones logística estándar 
(la base para el logit) y normal estándar (la base para el probit) tienen ambas media cero, sus va- 
rianzas son diferentes; 1 para la normal estándar (como ya sabíamos) y 71?/3 para la distribución 
logística, donde x ~% 22/7. En consecuencia, si multiplicamos el coeficiente probit por aproxima- 
damente 1.81 (casi igual a x /v/3), tendremos aproximadamente el coeficiente logit. Para nuestro 
ejemplo, el coeficiente probit de GPA es 1.6258. Al multiplicarlo por 1.81, obtenemos 2.94, cer- 
cano al coeficiente logit. Por otra parte, si multiplicamos un coeficiente logit por 0.55 (= 1/1.81), 
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FIGURA 15.6 


Distribuciones acumulati- 
vas logit y probit. 


TABLA 15.15 

Valores de las funciones 
de probabilidad acumu- 
lativas 


0 
Normal acumulativa Logística acumulativa 

1 á e%/2ds 1 

Z aD = E l E aoe 
—3.0 0.0013 0.0474 
—2.0 0.0228 0.1192 
=1.5 0.0668 0.1824 
1.0 0.1587 0.2689 
=0.5 0.3085 0.3775 
0 0.5000 0.5000 
0.5 0.6915 0.6225 
1.0 0.8413 0.7311 
1.5 0.9332 0.8176 
2.0 0.9772 0.8808 
3.0 0.9987 0.9526 


tendremos el coeficiente probit. Sin embargo, Amemiya sugiere multiplicar una estimación logit 
por 0.625, a fin de obtener una mejor estimación para el correspondiente probit estimado.** En 
sentido inverso, al multiplicar un coeficiente probit por 1.6 (= 1/0.625), obtenemos el coeficiente 
logit correspondiente. 

A propósito, Amemiya también demostró que los coeficientes de los modelos MLP y logit se 
relacionan de la siguiente manera: 


Bme = 0.25 Blogit excepto para el intercepto 


Bu» = 0.25 Biogit + 0.5 para el intercepto 


Se deja al lector la tarea de verificar si las aproximaciones son válidas para el ejemplo de las 
calificaciones. 
Para concluir el análisis de los modelos MLP, logit y probit, consideraremos otro ejemplo. 


34T, Amemiya, “Qualitative Response Model: A Survey”, Journal of Economic Literature, vol. 19, 1981, 
pp. 481-536. 
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EJEMPLO 15.7 
Fumar o no fumar 


TABLA 15.16 


TABLA 15.17 


Para averiguar qué factores determinan si una persona será fumadora o no, obtuvimos datos 
sobre 1 196 sujetos de estudio.*% Para cada uno de ellos se presenta información sobre esco- 
laridad, edad, ingreso y precio de los cigarrillos en 1979. La variable dependiente es fumador, 
donde 1 corresponde a los fumadores y 0 a los no fumadores. En el ejercicio 15.20 realizaremos 
otro análisis basado en los datos de la tabla 15.28 del sitio web del libro. Para efectos de compa- 
ración, presentamos los resultados basados en los modelos MLP, logit y probit en forma tabular 
(tabla 15.16). Estos resultados se obtuvieron con la versión 10 de STATA. 


Variables MLP Logit Probit 
Constante 1.1230 2.7450 1.7019 
(5.96) (3.31) (3.33) 
Edad 0.0047 0.0208 0.0129 
(=5.70) (=5.58) (=5.66) 
Escolaridad 0.0206 0.0909 0.0562 
(4.47) (4.40) (44.45) 
Ingreso 1.03e-0.6 4.72e-06 2.72e-06 
(0.63) (0.66) (0.62) 
Pcigs79 0.0051 -0.0223 -0.0137 
(-1.80) (-1.79) (-1.79) 
R? 0.0388 0.0297 0.0301 


Notas: Las cifras entre paréntesis son razones ź en el MLP y z en los modelos logit y probit. En 
logit y probit, los valores R? son valores pseudo R?. 


Aunque los coeficientes de los tres modelos no se pueden comparar de manera directa, 
en el sentido cualitativo son similares. Así, edad, escolaridad y precio de los cigarrillos produ- 
cen efecto negativo en el hábito de fumar, y el ingreso tiene efecto positivo. Estadísticamente, 
el efecto del ingreso es cero y el efecto del precio es significativo en un nivel aproximado a 8%. 
En el ejercicio 15.20 se pide al lector que aplique el factor de conversión para producir varios 
coeficientes comparables. 

En la tabla 15.17 se presenta el efecto marginal de cada variable sobre la probabilidad de 
fumar en cada tipo de modelo. 


Variables MLP Logit Probit 
Edade -0.0047 -0.0048 -0.0049 
Escolaridad -0.0206 -0.0213 -0.0213 
Ingreso 1.03e-06 1.11e-06 1.03e-06 
Pcigs79 0.0051 0.0052 0.0052 


Nota: Salvo por el ingreso, los coeficientes estimados son muy significativos estadísticamente para 
edad y escolaridad, y significativos en un nivel aproximado a 8% para el precio de los cigarrillos. 


Como reconocerá, en el MLP el efecto marginal de una variable sobre la probabilidad de 
fumar se obtiene directamente de los coeficientes de regresión estimados, pero en los modelos 
logit y probit deben calcularse como explicamos en el capítulo. 

Es interesante que los efectos marginales de los tres modelos sean muy parecidos. Por ejem- 
plo, si el nivel de escolaridad aumenta, en promedio, la probabilidad de que alguien se convierta 
en fumador se reduce en alrededor de 2%. 


35 Estos datos son de Michael P. Murray, Econometrics: A Modern Introduction, Pearson/Addison-Wesley, Bos- 
ton, 2006, y pueden descargarse de www.aw-bc.com/murray. 
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15.11 Modelo tobit 


Una extensión del modelo probit es el modelo tobit, desarrollado por James Tobin, economista 
laureado con el Nobel. Para explicar este modelo continuamos con el ejemplo de propiedad de 
vivienda. En el modelo probit, el objetivo era estimar la probabilidad de tener una casa propia 
como función de algunas variables socioeconómicas. En el modelo tobit, el interés radica en 
averiguar la cantidad de dinero que una persona o familia gasta en una casa en relación con las 
variables socioeconómicas. Ahora tenemos un problema: si un consumidor no compra una casa, 
obviamente no hay información sobre el gasto en vivienda de tales consumidores; se tiene tal 
información sólo sobre los consumidores que en efecto compran casa. 

Así, los consumidores se dividen en dos grupos, uno que consiste, por ejemplo, en nı con- 
sumidores de quienes se posee información sobre las regresoras (por ejemplo, ingreso, tasa de 
interés hipotecaria, número de personas que forman la familia, etc.) al igual que sobre la variable 
regresada (cantidad de gasto en vivienda), y otro que consiste, por ejemplo, en n consumidores 
de quienes sólo se tiene información sobre las regresoras pero no sobre la variable regresada. 
Cuando en una muestra la información sobre la variable regresada está disponible sólo para al- 
gunas observaciones, se conoce como muestra censurada.*% Por consiguiente, el modelo tobit 
también se conoce como modelo de regresión censurada. Algunos autores los llaman modelos de 
regresión con variable dependiente limitada debido a la restricción impuesta sobre los valores 
tomados por la variable regresada. 

En términos estadísticos, el modelo tobit se expresa como 


Y, =P + B2X+u; siLD>0 


(15.11.1) 
=0 en otro caso 


donde LD = lado derecho. Nota: Se pueden agregar fácilmente otras variables X al modelo. 

¿Es posible estimar la regresión (15.11.1) sólo con nı observaciones y dejar de lado sin más 
la preocupación por las n, observaciones restantes? La respuesta es no, pues las estimaciones por 
MCO de los parámetros obtenidos del subconjunto de nı observaciones estarán sesgadas y serán 
inconsistentes, es decir, estarán sesgadas pero de manera asintótica.*” 

Para ver esto, considere la figura 15.7. Como muestra esta figura, si no se observa Y (debido 
a la censura), todas esas observaciones (= n2), denotadas por cruces, quedarán sobre el eje ho- 
rizontal. Si se observa Y, las observaciones (= nı) (señaladas con puntos) quedarán en el plano 
X-Y. La intuición indica que si estimamos una regresión basada sólo en las nı observaciones, los 
coeficientes resultantes del intercepto y de la pendiente estarán limitados a ser diferentes de 
los que obtendríamos si se tomaran en cuenta todas las (nı + n2) observaciones. 

¿Cómo estimar entonces los modelos de regresión tobit (o censurados), como (15.11.1)? El 
mecanismo real implica al método de máxima verosimilitud, que, por su complejidad, escapa al 
alcance de este libro. Pero el lector puede obtener más información respecto del método MV en 
la bibliografía.3$ 


36 Una muestra censurada debe diferenciarse de una muestra truncada, en la cual la información sobre 
las regresoras sólo está disponible si se observa la variable regresada. No analizaremos este tema aquí, pero 
el lector puede consultar William H. Greene, Econometric Analysis, Prentice Hall, 4a. ed., Englewood Cliffs, 
Nueva Jersey, cap. 19. Para un análisis intuitivo, véase Peter Kennedy, A Guide to Econometrics, The MIT Press, 
Cambridge, Massachusetts, 4a. ed., 1998, capítulo 16. 

37 El sesgo surge porque si sólo se consideran las n; observaciones y se omiten las demás, no hay garantía de 
que E(u;) será necesariamente igual a cero. Y sin E(u;) = 0 no podemos garantizar que los estimadores de 
MCO serán insesgados. Este sesgo se ve fácilmente en el análisis del apéndice 3A, ecuaciones (4) y (5). 

38 Véase Greene, op. cit. Hay un análisis un poco menos técnico en Richard Breen, Regression Models: Censo- 
res, Sampled Selected or Truncated Data, Sage, Newbury Park, California, 1996. 


FIGURA 15.7 
Gráfico de la cantidad de 
dinero que gasta el con- 
sumidor en comprar una 
casa contra el ingreso. 
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x: Datos no disponibles 
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James Heckman propuso un método alterno y más sencillo que el MV3% Consiste en un 
cálculo de dos pasos. En el primero estimamos la probabilidad de que un consumidor tenga una 
casa propia, con base en el modelo probit. En el siguiente paso estimamos el modelo (15.11.1) 
añadiéndole una variable (llamada razón inversa de Mills o razón de riesgo), la cual se deriva 
a partir de la estimación probit. Para conocer el mecanismo real, consulte el artículo de Hack- 
man. El procedimiento Hackman proporciona estimaciones consistentes de los parámetros de 
(15.11.1), pero no tan eficientes como las estimaciones de MV. Como los programas estadísticos 
más modernos cuenta con rutinas de MV, serían preferibles en vez del proceso Hackman de dos 
pasos. 


Ilustración del modelo tobit: modelo de Ray Fair 
para las relaciones extramaritales* 


En un interesante y novedoso artículo teórico, Ray Fair recopiló una muestra de 601 hombres y 
mujeres casados por primera vez y analizó sus respuestas a la pregunta respecto de relaciones 
extramaritales.* Las variables de este estudio se definen como sigue: 


Y = número de relaciones extramaritales durante el año anterior, 0, 1, 2, 3, 4-10 (codificado 


como 7) 
Zı = 0 para la mujer y 1 para el hombre 
Z = edad 


Z3 = número de años de matrimonio 

Za = hijos: 0 si no los hay, 1 si los hay 

Z; = religiosidad en una escala de 1 a 5, 1 para los no religiosos 

Z6 = escolaridad en años: básica = 9, licenciatura = 12, doctorado u otro grado = 20 
Z = ocupación, escala “Hollingshead”, de 1 a 7 

Zg = autovaloración del matrimonio, 1 = muy infeliz, 5 = muy feliz 


39 J.J. Heckman, “Simple Selection Bias as a Specification Error”, Econometrica, vol. 47, pp. 153-161. 


40 Ray Fair, “A Theory of Extramarital Affaires”, Journal of Political Economy, vol. 86, 1978, pp. 45-61. Para el 
artículo y los datos, consulte http://fairmodel.econ.yale.edu/rayfair/pdaf/1978DAT.ZIP. 

41 En 1969, Psychology Today publicó un cuestionario con 101 preguntas sobre el sexo y pidió a sus lectores 
que enviaran por correo las respuestas. En el número correspondiente a julio de 1970 se analizaron los resul- 
tados de la encuesta con base en 2 000 respuestas que se recopilaron de forma electrónica. Ray Fair extrajo 
la muestra de 601 casos de estas respuestas. 
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TABLA 15.18 
Estimaciones por MCO 
y tobit de las relaciones 
extramaritales 


Variable explicativa 


Estimaciones MCO 


Estimaciones tobit 


Intercepto 5.8720 (5.1622)* 7.6084 (1.9479) 
Zi 0.0540 (0.1799) 0.9457 (0.8898) 
Z2 —0.0509 (—2.2536) —0.1926 (—2.3799) 
Z3 0.1694 (4.1109) 0.5331 (3.6368) 
Z4 —0.1426 (—0.4072) 1.0191 (0.7965) 
Z5 —0.4776 (—4.2747) —1.6990 (—4.1906) 
Z6 —0.0137 (—0.2143) 0.0253 (0.1113) 
Z7 0.1049 (1.1803) 0.2129 (0.6631) 
Zg —0.7118 (—5.9319) —2.2732 (—5.4724) 
R? 0,1317 0.1515 


* Las cifras entre paréntesis son los valores t. 
Y Las cifras entre paréntesis son los valores Z (normal estandarizados). 


Nota: En total hay 601 observaciones, de las cuales 451 tienen valores cero para la variable dependiente (número de relaciones 
extramaritales), y 150, valores diferentes de cero. 


De las 601 respuestas, 451 individuos no tuvieron relaciones extramaritales y 150 tuvieron una 
o más. 

En términos de la figura 15.7, si graficamos el número de relaciones en el eje vertical y, por 
ejemplo, la escolaridad en el horizontal, habrá 451 observaciones a lo largo del eje horizontal. 
Por tanto, tenemos una muestra censurada, así que resulta apropiado un modelo tobit. 

La tabla 15.18 proporciona las estimaciones del modelo anterior obtenidas mediante los pro- 
cedimientos MCO (inapropiado) y MV (apropiado). Como se observa, el método de MCO in- 
cluye 451 individuos que no tuvieron relaciones y 150 que tuvieron una o más. El método MV 
toma esto en cuenta de manera explícita, pero los MCO no; he aquí la diferencia entre las dos es- 
timaciones. Por razones ya vistas, debemos confiar en las estimaciones MV y no en las de MCO. 
Los coeficientes en ambos modelos pueden interpretarse como cualesquiera otros coeficientes de 
regresión. El coeficiente negativo de Zg (felicidad marital) significa que mientras más feliz se es, 
menor es la incidencia de relaciones extramaritales, hallazgo que quizá no sorprenda. 

A propósito, observe que si nos interesa la probabilidad de las relaciones extramaritales y no 
su número, podemos utilizar el modelo probit, con Y = 0 para los individuos que no tuvieron 
relaciones de ese tipo y Y = 1 para los que sí las tuvieron, cuyos resultados se muestran en la 
tabla 15.19. Si ya saben elaborar modelos probit, los lectores deben ser capaces de interpretar los 
resultados probit de dicha tabla. 


15.12 Creación de modelos para datos de cuenta: 


modelo de regresión de Poisson 


Existen muchos fenómenos en los que la regresada es del tipo de cuenta, como el número de 
vacaciones tomadas por una familia en un año, el número de patentes otorgadas a una empresa 
en un año, el número de visitas a un dentista o a un doctor en un año, el número de visitas a un 
supermercado en una semana, el número de infracciones por estacionarse mal o conducir con 
exceso de velocidad en un año, el número de días en un hospital durante un periodo determinado, 
la cantidad de automóviles que pasan por una caseta en un intervalo de, por ejemplo, cinco mi- 
nutos, etc. La variable en cada caso es discreta: toma sólo un número finito de valores. A veces 
los datos de cuenta se refieren a ocurrencias raras o poco frecuentes, como ser alcanzado por un 
rayo en el lapso de una semana, ganar más de dos veces la lotería en dos semanas o tener uno o 
más ataques al corazón en el transcurso de cuatro semanas. ¿Cómo elaboramos los modelos de 
estos fenómenos? 


TABLA 15.19 
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Variable dependiente: YSTAR 
Método: Logit binario MV 


Muestra: 1-601 


Observaciones incluidas: 601 
Convergencia lograda después de 5 iteraciones 


Variable Coeficiente Error estándar Estadístico Z Probabilidad 

E e TISAOZ 0. 525345) 175210638 0.1284 

Z1 0.173457 OL La IDES 02087 

Z2 -0.024584 0.010418 SAA. 0.0183 

Z3 0.054343 0.018809 2.889278 0.0039 

Za 0.216644 0.165168 LILLE 0.1896 

Zs -0.185468 0.051626 23.) 992551 0.0003 

Ze 0.011262 0,0295 7 0.381556 0.7028 

Z7 0.013669 0.041404 om 30129 0.7413 

Zg O ISA, 0.053475 -5.082608 0.0000 
Media de la variable Desviación estándar de la 

dependiente 0.249584 variable dependiente 0.433133 
Error estándar de la regresión 0.410279 Criterio de información de Akaike 1.045584 
Suma de cuadrados residual 99.65088 Criterio de Schwarz IEAS 
Log verosimilitud -305.1980 Criterio de Hannan-Quinn 1.071224 
Log verosimilitud restr. -337.6885 Promedio log verosimilitud -0.507817 
Estadístico RV (8 gl) 64.98107 R cuadrada McFadden 0.096215 
Probabilidad (estadístico RV) 4.87E-11 
Obs. con Dep = O 451 Total de obs. 601 
Obs. con Dep = 1 150 


Del mismo modo que elegimos la distribución de Bernoulli para el modelo de decisiones del 
tipo sí/no en el modelo lineal de probabilidad, la distribución de probabilidades especificamente 
adecuada para los datos de cuenta es la distribución de probabilidades de Poisson. La fdp de la 
distribución de Poisson está dada por: Y 


pře 


FO) == 


Y =0,1,2,... (15.12.1) 


donde f (Y) denota la probabilidad de que la variable Y tome valores enteros no negativos, 
y donde Y! (se lee como Y factorial) significa Y! = Y x (Y — 1) x (Y — 2) x 2 x 1. Se puede 
demostrar que 


E(Y)=u (15.12.2) 
var(Y)=u (15.12.3) 
Observe una característica importante de la distribución de Poisson: su varianza es la misma que 
el valor de su media. 


El modelo de regresión de Poisson se expresa como: 


Y, = E(L) + ui = pi + ui (15.12.4) 


42 Consulte cualquier libro usual de estadística para los detalles de esta distribución. 
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donde las Y están independientemente distribuidas como variables aleatorias Poisson, con una 
media u; para cada individuo expresada como 


ui = E(Y;) = Pı + P2X + B3A3, +-+- + BrXx (15.12.5) 


donde las X son algunas variables que afectarían el valor de la media. Por ejemplo, si la variable 
de cuenta es el número de visitas al Museo Metropolitano de Nueva York en un año determinado, 
esta cifra dependerá de variables como el ingreso del consumidor, el precio de entrada, la distan- 
cia al museo y las tarifas de estacionamiento. 

Para propósitos de cálculo, expresamos el modelo como 


Y ¿A 
y=. 
y! 


+u (15.12.6) 


en donde y está sustituida por (15.12.5). Como se aprecia fácilmente, el modelo de regresión 
resultante será no lineal en los parámetros, por lo que requiere una estimación de regresión no 
lineal, que analizamos en el capítulo anterior. Consideremos un ejemplo concreto para ver cómo 
funciona esto. 


EJEMPLO 15.8 
Un ejemplo ilus- 
trativo: estudio 
geriátrico sobre la 


frecuencia de cai- 
das 


TABLA 15.20 


Estos datos se recopilaron por Neter et al.$ Los datos se refieren a 100 individuos de 65 años 
de edad o mayores. El objetivo del estudio fue registrar el número de caídas (= Y) sufridas por 
estos individuos según el sexo (X2 = O si es mujer y 1 si es hombre), índice de equilibrio (X3) e 
índice de fortaleza (X4). Mientras mayor sea el índice de equilibrio, más estable será el sujeto; 
y mientras mayor sea el índice de fortaleza, más fuerte será el individuo. Para averiguar si la 
escolaridad, o la escolaridad más los ejercicios aeróbicos, influyen en el número de caídas, los 
autores introdujeron la variable adicional (X+), llamada variable de intervención, la cual Xy = O si 
sólo interviene la escolaridad, y X¡ = 1 si se trata de la escolaridad más los ejercicios aeróbicos. 
Los sujetos se asignaron de manera aleatoria a los dos métodos de intervención. 
Con EViews 6 obtuvimos los resultados de la tabla 15.20. 


Variable dependiente: Y 

Muestra: 1-100 

Convergencia lograda después de 7 iteraciones 
Y=EXP (C(0)+C(1) *X1+C (2) *X24+C(3) *X3+C(4)*X4) 


Coeficiente Error estándar Estadístico t Probabilidad 
Cc(0) 0.37020 0.3459 L070T 0.2873 
ECAN = LOS DADOS -6.4525 0.0000 
C); -0.02194 05 ALTOS >00. 1935 0.8430 
EB) 0.01066 0.0027 3.9483 0.0001 
C(4) 0.0027 0.00414 2m2 BO T OZS 


R? = 0.4857 R? ajustada = 0.4640 
Log verosimilitud = -197.2096 Estadístico de Durbin-Watson = 1.7358 


Nota: EXP(  ) significa e (la base del logaritmo natural) elevado a la expresión entre paréntesis. 


43 John Meter, Michael H. Kutner, Christopher J. Nachtsheim y William Wasserman, Applied Regression 
Models, Irwin, 3a. ed., Chicago, 1996. Los datos provienen del disco de datos incluido en el libro y se 
refieren al ejercicio 14.28. 
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EJEMPLO 15.8 Interpretación de los resultados. Tenga en cuenta que lo que obtuvimos en la tabla 15.20 es 


(continuación) el valor medio estimado para el ¡-ésimo individuo, (2 ¡; es decir, lo que estimamos es: 


Ĝi = e0-3702-1.1 00366 X1; —0.02194 X2; +0.0106 X3; +0.00927 X4i (15 12 7) 


Para encontrar el valor medio real del ¡-ésimo sujeto necesitamos colocar los valores de las distin- 
tas variables X de ese sujeto. Por ejemplo, el sujeto 99 tuvo estos valores: Y = 4, Xy = 0, X2= 1, 
X3 = 50 y X4 = 56. Al colocar dichos valores en (15.12.7), obtenemos ¡199 = 3.3538 como valor 
medio estimado del sujeto 99. El valor real Y de este individuo fue 4. 

Ahora bien, si deseamos saber la probabilidad de que un sujeto similar al 99 sufra menos de 
cinco caídas al año, se obtiene mediante: 


P(Y < 5) = P(Y =0)+ P(Y =1)+ PY =2) + PY =3) + PY =4) 
E (3.3538)%e- 33538 (3.3538)! e7 3.3538 (3.3538)?e >3538 
É 0! 1! 2! 


(3.3538)3e-3-3538 (3,3538)1e-3.3538 
a 3! 4! 


= 0.7491 


Asimismo, calculamos el efecto marginal o parcial que una regresora tiene en el valor medio 
de Y de la siguiente manera. En términos de este ejemplo, suponga que deseamos averiguar el 
efecto de un incremento de una unidad en el índice de fortaleza (X4) sobre la media Y. Como 


u= eCo+C1 X1i+C2 X2; +C3 X3; +C4 Mai (15.12.8) 


deseamos conocer ðu /3X4. Con la regla de la cadena del cálculo, demostramos fácilmente que 
lo anterior es igual a 


ón = Cgeco+C Xi +CXai+C3A3i+Ca Xaj — Cap (15.12.9) 
3X4 

Es decir, la tasa de cambio del valor medio respecto de la regresora es igual al coeficiente de esa 
regresora multiplicado por el valor medio. Por supuesto, el valor medio u depende de los valores 
tomados por todas las regresoras en el modelo. Esto es similar a los modelos probit y logit ya 
analizados, en los que la contribución marginal de una variable también dependía de los valores 
tomados por todas las variables del modelo. 

De regreso a la importancia estadística de los coeficientes individuales, observamos que el 
intercepto y la variable X2 son estadísticamente significativas en lo individual. Pero note que los 
errores estándar dados en la tabla son asintóticos y, por tanto, los valores t deben interpretarse 
de manera asintótica. Como ya mencionamos, por lo general los resultados de todos los proce- 
dimientos iterativos de estimación no lineales sólo tienen validez en muestras grandes. 

Para concluir el análisis del modelo de regresión de Poisson, vale la pena mencionar que el 
modelo hace supuestos restrictivos, como el que la media y la varianza del proceso de Poisson 
son iguales y que la probabilidad de una ocurrencia es constante en cualquier punto en el 
tiempo. 


15.13 Otros temas de los modelos de regresión de 
respuesta cualitativa 


Como expresamos al principio, el tema de los modelos de regresión con respuesta cualitativa 
es amplio. Lo que presentamos en este capítulo son algunos modelos básicos de este tema. Para 
quienes deseen adentrarse más en esta área, a continuación estudiaremos muy brevemente otros 
modelos. No profundizaremos en ellos, pues están fuera del alcance de esta obra. 
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Parte Tres 


Temas de econometria 


Modelos ordinales logit y probit 

En los modelos bivariados logit y probit, el interés residía en construir un modelo para una va- 
riable de respuesta del tipo sí o no. Pero a menudo la variable de respuesta, o regresada, puede 
tener más de dos resultados, y con mucha frecuencia son ordinales por naturaleza; es decir, 
no pueden expresarse en una escala de intervalo. Suele suceder que en las investigaciones del 
tipo de encuesta las respuestas se den en una escala de tipo Likert, por ejemplo, “totalmente de 


” 66 


acuerdo”, “algo de acuerdo”, o “totalmente en desacuerdo”. O las respuestas de una encuesta 


33 < 


sobre educación quizá sean “menor a la educación media superior”, “educación media superior”, 
“licenciatura”, “posgrado”. Muy a menudo tales respuestas se codifican como 0 (menor a la 
educación media superior), 1 (educación media superior), 2 (licenciatura) y 3 (posgrado). Éstas 
son escalas ordinales, pues hay un orden claro entre las categorías, pero no podemos decir que 
2 (licenciatura) es dos veces 1 (educación media superior), o que 3 (posgrado) es tres veces 1 
(educación media superior). 

Para estudiar estos fenómenos extendemos los modelos bivariados logit y probit a fin de que 
tomen en cuenta múltiples categorías ordenadas. La aritmética tiene mucho que ver, pues se 
precisan distribuciones de probabilidades logística y normal en múltiples etapas para las diversas 
categorías ordenadas. Respecto de las matemáticas necesarias y algunas de sus aplicaciones, el 
lector puede consultar los textos de Greene y Maddala ya citados. En un nivel comparativamente 
intuitivo, puede consultar la monografía de Liao.** Los programas de software como LIMDEP, 
EViews, STATA y SHAZAM tienen rutinas para estimar los modelos logit y probit ordenados. 


Modelos multinomiales logit y probit 


En los modelos probit y logit ordenados, las variables de respuesta tienen más de dos categorías 
ordenadas o jerarquizadas. Pero existen situaciones en las que la regresada no está ordenada. 
Por ejemplo, considere la elección del transporte para ir al trabajo. Las elecciones son bicicleta, 
motocicleta, automóvil, autobús o tren. Aunque son respuestas categóricas, no existe jerarquía 
ni orden; en esencia, tienen una naturaleza nominal. Otro ejemplo: las clasificaciones laborales, 
como mano de obra no especializada, semiespecializada y muy especializada. De nuevo, no hay 
ningún orden. De manera semejante, las elecciones ocupacionales, como autoempleado, em- 
pleado de una empresa privada, empleado de una oficina gubernamental local y empleado de una 
oficina gubernamental federal, son de carácter esencialmente nominal. 

Las técnicas de los modelos probit y logit multinomiales sirven para estudiar esas catego- 
rías nominales. Una vez más, las matemáticas intervienen en cierta medida. Las referencias ya 
citadas ofrecen los elementos esenciales de esas técnicas. Asimismo, el software estadístico ya 
mencionado es útil para aplicar tales modelos si así se requiere en casos específicos. 


Modelos de duración 


Considere preguntas como las siguientes: 1) ¿qué determina la duración de los intervalos de des- 
empleo?, 2) ¿qué determina la vida de un foco?, 3) ¿qué factores determinan la duración de una 
huelga?, 4) ¿qué determina el tiempo de sobrevivencia de un paciente VIH positivo? 

Materias como las anteriores son el tema de los modelos de duración, popularmente conocidos 
como análisis de supervivencia o análisis de datos del tiempo a un suceso. En cada ejemplo 
citado, la variable clave es la longitud del tiempo o la longitud del intervalo, cuyo modelo es una 
variable aleatoria. Una vez más, las matemáticas implican las FDP y las FDA de distribuciones 
de probabilidades apropiadas. Aunque los detalles técnicos pueden resultar tediosos, hay libros 
accesibles sobre la materia.* El software estadístico como STATA y LIMDEP estima con faci- 


44 Tim Futing Liao, op. cit. 
45 Véase, por ejemplo, David W. Hosmer, Jr., y Stanley Lemeshow, Applied Survival Analysis, John Wiley € 
Sons, Nueva York, 1999. 
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lidad tales modelos de duración. Estos paquetes cuentan con ejemplos resueltos para ayudar al 
investigador con tales modelos. 


Resumen y 
conclusiones 


. Los modelos de regresión con respuesta cualitativa se refieren a modelos en los que la varia- 


ble de respuesta, o regresada, no es cuantitativa ni en escala de intervalo. 


. El modelo de regresión con respuesta cualitativa más sencillo posible es el modelo binario en 


el que la regresada es del tipo sí/no o presencia/ausencia. 


. El modelo de regresión binario más sencillo posible es el modelo lineal de probabilidad 


(MLP), en el que se hace la regresión sobre la variable de respuesta binaria con la metodo- 
logía de MCO estándar. En este caso, la simplicidad quizá no sea una virtud, pues el MLP 
experimenta diversos problemas de estimación. Aunque se superen algunos de dichos pro- 
blemas de estimación, la debilidad fundamental del MLP es que supone que la probabilidad 
de que algo suceda se incrementa de manera lineal en función del nivel de la regresora; este 
supuesto tan restrictivo se evita con los modelos probit y logit. 


. En el modelo logit, la variable dependiente es el logaritmo de la razón de probabilidades, la 


cual es una función lineal de las regresoras. La función de probabilidades del modelo logit es 
la distribución logística. Si se contara con los datos de manera agrupada, se utilizarían MCO 
para calcular los parámetros del modelo logit, siempre y cuando se tome en cuenta de manera 
explícita la naturaleza heteroscedástica del término de error. Si se dispone de los datos en el 
nivel individual o micro, se requerirían los procedimientos de estimación no lineales en los 
parámetros. 


. Si elegimos la distribución normal como la distribución de probabilidades apropiada, se 


emplea el modelo probit, aunque es matemáticamente más difícil porque requiere integrales. 
Pero para propósitos prácticos, los resultados de los modelos logit y probit son similares. En 
la práctica, la elección depende de la facilidad de cálculo, lo cual no representa un problema 
grave en vista del complejo software estadístico que hay ahora. 


. Si la variable de respuesta es del tipo de cuenta, el modelo más frecuente en el trabajo 


aplicado es el de regresión de Poisson, que se basa en la distribución de probabilidades de 
Poisson. 


. Un modelo estrechamente relacionado con el modelo probit es el tobit, también conocido 


como modelo de regresión censurado. En dicho modelo, la variable de respuesta se observa 
sólo si se cumple(n) cierta(s) condición(es). Así, la pregunta de qué cantidad se gasta en un 
automóvil resulta significativa sólo si, para empezar, se decide adquirir un automóvil. Sin 
embargo, Maddala observa que el modelo tobit es “aplicable sólo en esos casos en donde la 
variable latente [es decir, la variable básica que subyace en un fenómeno] puede, en princi- 
pio, adoptar valores negativos, y los valores nulos observados son una consecuencia de la 
censura y la no observabilidad”.* 


. Existen varias extensiones del modelo de regresión con respuesta binaria, como los modelos 


probit y logit ordenados, así como los probit y logit nominales. La filosofía de estos modelos 
es la misma que la de los modelos logit y probit más sencillos, a pesar de que las matemáticas 
se complican un poco. 


. Por último, mencionamos brevemente los llamados modelos de duración, en los que la dura- 


ción de un fenómeno, como el desempleo o la enfermedad, depende de diversos factores. En 
tales modelos, la longitud o el intervalo de duración se convierten en una variable de interés 
para la investigación. 


46 G.S. Maddala, Introduction to Econometrics, 2a. ed., Macmillan, Nueva York, 1992, p. 342. 
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EJERCICIOS Preguntas 


15.1. Consulte la información de la tabla 15.2. Si Y; es negativa, suponga que es igual a 0.01, y 
si es mayor que 1, suponga que es igual a 0.99. Recalcule las ponderaciones w; y estime el 
MLP mediante MCP. Compare los resultados con los dados en (15.2.11) y coméntelos. 

15.2. Para la información sobre propiedad de vivienda de la tabla 15.1, las estimaciones de 
máxima verosimilitud del modelo logit son las siguientes: 


A 


a P; y 
L; = 15 E E ) = -493(544+ 32.96 ingreso 
"s (—0.000008)(0.000008) 


Comente estos resultados, teniendo en mente que todos los valores de ingreso por encima 
de 16 (1 000 dólares) corresponden a Y = 1 y todos los valores de ingreso por debajo de 
16 corresponden a Y = 0. A priori, ¿qué esperaría en tal situación? 

15.3. Al estudiar la compra de bienes imperecederos Y (Y = 1 si hubo compra, Y = 0 si no la 
hubo) como función de diversas variables para un total de 762 familias, Janet A. Fisher* 
obtuvo los siguientes resultados del MLP: 


Variable explicativa Coeficiente Error estándar 
Constante 0.1411 — 
Ingreso disponible 1957, X1 0.0251 0.0118 
(Ingreso disponible = X1)?, X2 —0.0004 0.0004 
Cuentas corrientes, X3 —0.0051 0.0108 
Cuentas de ahorro, X4 0.0013 0.0047 
Bonos de ahorro de Estados Unidos, Xs —0.0079 0.0067 
Condición de vivienda: alquilada, X6 —0.0469 0.0937 
Condición de vivienda: propia, X7 0.0136 0.0712 
Alquiler mensual, Xg —0.7540 1.0983 
Pagos de hipoteca mensual, Xy —0.9809 0.5162 
Deuda personal pagadera en una sola exhibición, X10 0.0367 0.0326 
Edad, X11 0.0046 0.0084 
Edad elevada al cuadrado, X12 —0.0001 0.0001 
Estado civil, X13 (1 = casado) 0.1760 0.0501 
Número de hijos, X14 0.0398 0.0358 
(Número de hijos = X14), X15 —0.0036 0.0072 
Planes de compra, X16 (1 = planeado; O en otro caso) 0.1760 0.0384 
R? = 0.1336 


Notas: Todas las variables financieras están expresadas en miles de dólares. 

Condición de vivienda: alquilada (1 si es alquilada; 0 en otro caso). 

Condición de vivienda: propia (1 si es propia; 0 en otro caso). 
Fuente: Janet A. Fisher, “An Analysis of Consumer Good Expenditure”, The Review of Economics and Statistics, vol. 64, núm. 1, tabla 1, 
1962, p. 67. 


a) Comente en general sobre el ajuste de la ecuación. 

b) ¿Cómo interpreta el coeficiente de —0.0051 asociado a la variable de cuentas corrien- 
tes? ¿Cómo explica el signo negativo de esta variable? 

c) ¿Cuál es el razonamiento de la introducción de las variables edad elevada al cua- 
drado y número de hijos elevado al cuadrado? ¿Por qué hay signo negativo en ambos 
casos? 


* “An Analysis of Consumer Good Expenditure”, The Review of Economics and Statistics, vol. 64, núm. 1, 
1962, pp. 64-71. 


15.4. 


15,3 


*15.6. 


IST 


15.8. 
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d) Si tiene valores de cero para todas las variables excepto para la variable ingreso, 
encuentre la probabilidad condicional de una familia, cuyo ingreso es $20 000, de 
comprar un bien imperecedero. 

e) Estime la probabilidad condicional de poseer uno o más bienes imperecederos si 
Xı = $15 000, X; = $3 000, X4 = $5 000, X6 = 0, X; = 1, Xs = $500, Xy = $300, 
A- AnS 35, An Au = aA 

El valor R? en la regresión de la participación de la fuerza laboral en la tabla 15.3 es 

0.175, relativamente bajo. ¿Puede probar la significancia estadística para este valor? ¿Qué 

prueba utiliza y por qué? Comente en general sobre el valor del R? en tales modelos. 


Estime las probabilidades de tener casa propia en los diversos niveles de ingreso en los 
que se basa la regresión (15.7.1). Grafique las probabilidades contra el ingreso y comente 
sobre la relación resultante. 
En la regresión probit de la tabla 15.11 muestre que el intercepto es igual a —u,/0, y la 
pendiente es igual a 1/0, donde uy y ox son la media y la desviación estándar de X. 
Con base en datos de 54 áreas estadísticas metropolitanas estándar (AEME), Demaris 
estimó el siguiente modelo logit para explicar tasas altas de asesinatos versus tasas bajas 
de asesinatos:** 
InÓ;= 1.1387 + 0.0014P,+ 0.0561C,— 0.4050R; 
ee = (0.0009) (0.0227) (0.1568) 

donde O = posibilidades en favor de una tasa alta de asesinatos, P = tamaño de la po- 
blación en 1980 en miles, C = tasa de crecimiento de la población entre 1970 y 1980, 
R = cociente de lectura, y ee, errores estándar asintóticos. 
a) ¿Cómo interpretaría los diversos coeficientes? 
b ) ¿Qué coeficientes son en lo individual estadísticamente significativos? 
c ) ¿Cuál es el efecto de un incremento unitario en el cociente de lectura en las posibili- 

dades en favor de una tasa más alta de asesinatos? 
d) ¿Cuál es el efecto de un incremento de un punto porcentual en la tasa de crecimiento 

poblacional sobre las posibilidades en favor de una tasa más alta de asesinatos? 


Compare y comente sobre las regresiones de MCO y MCP (15.7.3) y (15.7.1). 


Ejercicios empíricos 


15.9. 


De la encuesta sobre presupuesto familiar de 1980 levantada por la Oficina Central Ho- 
landesa de Estadísticas, J. S. Cramer obtuvo el siguiente modelo logit con base en una 
muestra de 2 820 familias. (Los resultados se basan en el método de máxima verosimi- 
litud y se dan después de la tercera iteración.)' El propósito del modelo logit fue deter- 
minar la adquisición de un automóvil como una función del (logaritmo del) ingreso. La 
adquisición de automóvil fue una variable binaria: Y = 1 si una familia tenía un automó- 
vil, Y = 0 en otro caso. 
Ê: = -2.77231 + 0.347582 In Ingreso 

t= (-3.35) (4.05) 

12M gl) = 16.681 (valor p = 0.0000) 
donde ÊĈ; = el logit estimado y en donde In Ingreso es el logaritmo del ingreso. La distri- 
bución x? mide la bondad del ajuste del modelo. 


* Opcional. 


** Demaris, op. cit., p. 46. 

tJ.S. Cramer, An Introduction to the Logit Model for Economist, 2a. ed., publicada y distribuida por Timberlake 
Consultants, 2001, p. 33. Estos resultados se reproducen del software estadístico PC-GIVE 10, publicado por 
Timberlake Consultants, p. 51. 
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a) Interprete el modelo logit estimado. 

b) Del modelo logit estimado, ¿cómo obtendría la expresión para la probabilidad de 
adquirir un automóvil? 

c) ¿Cuál es la probabilidad de que una familia con un ingreso de $20 000 posea un au- 
tomóvil?, ¿y para un nivel de ingreso de $25 000? ¿Cuál es la tasa de cambio de la 
probabilidad en un nivel de ingreso de $20 000? 


d) Comente sobre la significancia estadística del modelo logit estimado. 


15.10. Establezca la ecuación (15.2.8). 
15.11. En un importante estudio sobre las tasas de graduación de todos los alumnos inscritos en 


educación media superior y de los inscritos afroestadounidenses únicamente, Bowen y 
Bok obtuvieron los resultados de la tabla 15.21, con base en el modelo logit.* 


TABLA 15.21 Modelo de regresión logística para predecir tasas de graduación, Generación entrante 1989 


Variable 


Intercepto 
Mujeres 

Negros 
Hispanos 
Asiáticos 

Otra raza 

SAT> 1 299 
SAT 1 200-1 299 
SAT 1 100-1 199 
SAT 1 000-1 099 
SAT no disponible 


10% superior de la generación 
de escuela media superior 
Rango de la generación de 
escuela media superior 
no disponible 


Nivel socioeconómico 
alto (NSE) 

NSE bajo 

NSE no disponible 

SEL-1 

SEL-2 


Universidad para mujeres 


Número de observaciones 
-2 log verosimilitud 
Restringido 
No restringido 
Ji cuadrada 


Todos los inscritos Sólo afroestadounidenses 
Estimación del Error Razón de Estimación del Error Razón de 
parámetro estándar probabilidad parámetro estándar probabilidad 
0.957 0.052 = 0.455 0.112 = 
0.280 0.031 1.323 0.265 0.101 1.303 
0.513 0.056 0.599 
0.350 0.080 0.705 
0.122 0.055 1.130 
0.330 0.104 0.719 
0.331 0.059 1.393 0.128 0.248 1.137 
0.253 0.055 1.288 0.232 0.179 1.261 
0.350 0.053 1.420 0.308 0.149 1.361 
0.192 0.054 1.211 0.141 0.136 1.151 
0.330 0.127 0.719 0.048 0.349 1.050 
0.342 0.036 1.407 0.315 0.117 1.370 
0.065 0.046 0.937 0.065 0.148 0.937 
0.283 0.036 1.327 0.557 0.175 1.746 
0.385 0.079 0.680 0.305 0.143 0.737 
0.110 0.050 1.116 0.031 0.172 1.031 
1.092 0.058 2.979 0.712 0.161 2.038 
0.193 0.036 1.212 0.280 0.119 1.323 
0.299 0.069 0.742 0.158 0.269 1.171 
32 524 2 354 
31 553 2 667 
30 160 2 569 
1 393 con 18 gl 98 con 14 gl 


Notas: Los coeficientes en negritas son significativos en el nivel de 0.05; los otros coeficientes no lo son. Las categorías omitidas en el modelo son blancos, hombres, 
SAT < 1 000, 90% inferior de la generación de escuela media superior, NSE medio, SEL-3, institución mixta. Las tasas de graduación se refieren a las tasas de graduación de 6 
años de educación primaria, según se define en las notas de la tabla D.3.1 del apéndice. Las categorías de selectividad institucional se definen en las notas de la tabla D.3.1 del 
apéndice. Véase el apéndice B para la definición de nivel socioeconómico (NSE). 

SEL-1 = instituciones con una media de calificaciones combinadas SAT de 1 300 o superior. 

SEL-2 = instituciones con una media de calificaciones combinadas SAT entre 1 150 y 1 299. 

SEL-1 = instituciones con una media de calificaciones combinadas SAT inferior a 1 150. 


Fuente: Bowen y Bok, op. cit., p. 381. 


* William G. Bowen y Derek Bok, The Shape of the River: Long Term Consequences of Considering Race in 
College and University Admissions, Princeton University Press, Princeton, Nueva Jersey, 1998, p. 381. 


IS, 


ISI 


15.14. 


IAS: 
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a) ¿Qué conclusión general se deduce sobre las tasas de graduación de todos los inscri- 
tos y de únicamente los inscritos afroestadounidenses? 

b) La razón de probabilidad es la razón de dos probabilidades. Compare dos grupos de 
todos los inscritos, uno con una calificación SAT mayor que 1 299 y otro con una cali- 
ficación SAT menor que 1 000 (la categoría base). La razón de probabilidad de 1.393 
significa que las posibilidades en favor de que los inscritos en la primera categoría 
terminen sus estudios universitarios son 39% superiores a las de los que están en la 
otra categoría. ¿Las diversas razones de probabilidad que se muestran en la tabla están 
de acuerdo con las expectativas a priori? 

c) ¿Qué puede decir respecto de la significancia estadística de los parámetros estima- 
dos? ¿Y respecto de la importancia global del modelo estimado? 


En el modelo probit (tabla 15.11), la perturbación u; tiene esta varianza: 


A) 
ar = ———— 
u Nf? 


donde f; es la función de densidad normal estándar evaluada en FP). 


a) Con la varianza anterior de u;, ¿cómo transformaría el modelo de la tabla 15.10 para 
que el término de error resultante sea homoscedástico? 


b) Con la información de la tabla 15.10, muestre la información transformada. 


c) Estime el modelo probit con base en los datos transformados y compare los resultados 
con los basados en los datos originales. 


Como R? en calidad de medida de bondad de ajuste no es particularmente apropiada 
para los modelos de variable dependiente dicótoma, una alternativa que se propone es la 
prueba x? descrita en seguida: 


g= > N(B — BY 
P (ERR) 


donde N; = número de observaciones en la i-ésima celda 

Ê = probabilidad real de ocurrencia del suceso (= n;/N) 

P* = probabilidad estimada 
G = número de celdas (es decir, el número de niveles en el cual se mide X;, por 
ejemplo, 10 en la tabla 15.4) 
Puede demostrarse que, para muestras grandes, x? está distribuida de acuerdo con la dis- 
tribución x? con (G — k) gl, donde k es el número de parámetros en el modelo por estimar 
(k < G). 
Aplique la prueba anterior x? a la regresión (15.7.1), comente la bondad de ajuste 

resultante y compare con el valor reportado de la R?. 


La tabla 15.22 presenta datos sobre los resultados de dispersar rotenona en diferentes 
concentraciones sobre poblaciones de aproximadamente cincuenta individuos del pulgón 
del crisantemo. Elabore un modelo adecuado para expresar la probabilidad de mortalidad 
como una función del logaritmo de X, el logaritmo de la dosificación, y comente los re- 
sultados. También calcule la prueba x? del ajuste estudiado en el ejercicio 15.13. 

Trece aspirantes a un programa de posgrado obtuvieron las calificaciones cuantitativa 
y verbal en el examen GRE que se presentan en la tabla 15.23. Seis estudiantes fueron 
admitidos en el programa. 

a) Con el modelo MLP, prediga la probabilidad de admisión al programa con base en las 

calificaciones cuantitativas y verbales del GRE. 


b) ¿Es un modelo satisfactorio? De no ser así, ¿qué alternativa(s) ofrece? 
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TABLA 15.22 y 
Estudio de toxicidad de Concentracion 
rotenona en poblaciones miligramos por litro Total Mortalidad, r 
de pulgón del crisantemo X log (X) Ni Ni Pi= ni/Ni 
Fuente: D. J. Fennet, Probit a 0.4150 50 6 0.120 
Analysis, Gairik University 3.8 0.5797 48 16 0.333 
Press, Londres, 1964. 5.1 0.7076 46 24 0.522 
7.7 0.8865 49 42 0.857 
10.2 1.0086 50 44 0.880 
TABLA 15.23 AT : E 
Calificaciones del Calificaciones de examen de aptitud GRE a 
camen CRE Núm. de estudiante Cuantitativo, Q Verbal, V (Sí = 1, No = 0) 
Fuente: Donald F. Morrison. 
Applied Linear Statistical Me- 1 760 330 1 
thods, Prentice-Hall, Englewood 2 600 350 0 
Cliffs, Nueva Jersey, 1983, p. 279 3 720 320 0 
(adaptada). 4 710 630 1 
5 530 430 0 
6 650 570 0 
7 800 500 1 
8 650 680 1 
9 520 660 0 
10 800 250 0 
11 670 480 0 
12 670 520 1 
13 780 710 1 
15.16. Para estudiar la eficacia de un cupón de descuento sobre el precio de un paquete de seis 
unidades de un refresco, Douglas Montgomery y Elizabeth Peck recopilaron los datos 
que aparecen en la tabla 15.24. Se asignó aleatoriamente una muestra de 5 500 consumi- 
dores a las once categorías de descuento que aparecen en la tabla, 500 por categoría. La 
variable de respuesta es si los consumidores canjearon el cupón en un lapso de un mes, o 
si no lo hicieron. 
a) Vea si el modelo logit se ajusta a la información; considere la tasa de canje como 
variable dependiente y el precio de descuento como variable explicativa. 
b) Vea si el modelo probit opera tan bien como el modelo logit. 
Ss o Precio con descuento Tamaño de la muestra Número de cupones canjeados 
Precio del refresco con el Xq N; ” 
cupón de descuento ! 
5 500 100 
Fuente: Douglas C. Montgomery 7 500 122 
y po A. Pess E 9 500 147 
o j 500 176 
York, 1982, p. 243 (la notación 13 500 211 
cambió). 15 500 244 
17 500 277 
19 500 310 
21 500 343 
23 500 372 


25 500 391 
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c) ¿Cuál es la tasa de canje proyectada si la tasa de descuento de precio fue de 17 centa- 
vos? 
d) Estime el precio de descuento por el cual se canjeará 70% de los cupones. 


15.17. Para averiguar quién tiene una cuenta bancaria (corriente, de ahorro, etc.,) y quién no la 
tiene, John Caskey y Andrew Peterson estimaron un modelo probit para los años 1977 y 
1989, con información sobre las familias en Estados Unidos. Los resultados están en la 
tabla 15.25. Los valores de los coeficientes de pendiente en la tabla miden el efecto de 
un cambio unitario en una regresora sobre la probabilidad de que una familia tenga una 
cuenta bancaria, y con el cálculo estos efectos marginales en los valores medios de las 
regresoras del modelo. 

a) Para 1977, ¿cuál es el efecto del estado civil sobre la propiedad de una cuenta banca- 
ria?, ¿y para 1989? ¿Tienen sentido económico estos resultados? 

b) ¿Por qué es negativo el coeficiente asociado a la variable minoría para 1977 al igual 
que para 1989? 

c) ¿Cómo explica el signo negativo de la variable número de hijos? 

d) ¿Qué indica el estadístico ji cuadrada dado en la tabla? (Sugerencia: Consulte el ejer- 
cicio 15.13.) 


TABLA 15.25  Regresiones probit donde la variable dependiente es la posesión de una cuenta bancaria 


Datos de 1977 Datos de 1989 
Coeficientes Pendiente implícita Coeficientes Pendiente implícita 

Constante -1.06 -2.20 
(3.3)* (6.8)* 

Ingreso (miles de dólares de 1991) 0.030 0.002 0.025 0.002 
(6.9) (6.8) 

Casado 0.127 0.008 0.235 0.023 
(0.8) (1.7) 

Número de hijos 0.131 0.009 0.084 0.008 
(3.6) (2.0) 

Edad del jefe de familia (JF) 0.006 0.0004 0.021 0.002 
(1.7) (6.3) 

Educación de JF 0.121 0.008 0.128 0.012 
(7.4) (7.7) 

JF hombre 0.078 0.005 0.144 0.011 
(0.5) (0.9) 

Minoría 0.750 0.050 0.600 0.058 
(6.8) (6.5) 

Empleado 0.186 0.012 0.402 0.039 
(1.6) (3.6) 

Propietario de vivienda 0.520 0.035 0.522 0.051 
(4.7) (5.3) 

Log verosimilitud -430.7 -526.0 

Estadístico ji cuadrada 408 602 

(HO: Todos los coeficientes, excepto 
la constante, son iguales a cero) 

Número de observaciones 2025 2 091 

Porcentaje de la muestra con 

predicciones correctas 91 90 


* Las cifras entre paréntesis son estadísticos f. 
Fuente: John P. Caskey y Andrew Peterson, “Who Has a Bank Account and Who Doesn't: 1977 and 1989”, Research Working Paper 93-10, Federal Reserve Bank of Kansas 
City, octubre de 1993. 
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15.18. Estudio Monte Carlo. Como ayuda para entender el modelo probit, William Becker y 
Donald Waldman supusieron lo siguiente: * 


E ve 


Así, con Y, = —1 + 3X + e,, donde e, se supone normal estándar (es decir, media cero 
y varianza unitaria), generaron una muestra de 35 observaciones, como se muestra en la 
tabla 15.26. 


a) De la información sobre Y y X de esta tabla, ¿puede estimar un MLP? Recuerde que 
la verdadera E(Y |X) = —1 + 3X. 


b) Con X = 0.48, estime E(Y | X) = 0.48) y compárela con la verdadera K(Y | X) = 
0.48). Note que X = 0.48. 


c) Con la información sobre Y* y X de la tabla 15.26, estime un modelo probit. Utilice 
el paquete estadistico que desee. El modelo probit estimado por los autores es el si- 
guiente: 


Y* = —0.969 + 2.764X; 


Encuentre la P(Y* = 1| X= 0.48), es decir, P(Y, > 0| X= 0.48). Vea si la respuesta 
coincide con la respuesta de 0.64 de los autores. 


d) La desviación estándar muestral de los valores ¥ de la tabla 15.26 es 0.31. ¿Cuál es el 
cambio proyectado en la probabilidad si X es una desviación estándar por encima del 
valor de la media, es decir, cuál es P(Y* = 1| X= 0.79)? La respuesta de los autores 
es 0.25. 

TABLA 13:26 : Y y* X Y y* X 
Conjunto de datos hipo- 
téticos generados por el -0.3786 0 0.29 0.3753 0 0.56 
modelo F= -1 +3X + 1.1974 1 0.59 1.9701 1 0.61 
ey Y*=1,si¥>0 -0.4648 0 0.14 0.4054 0 0.17 
1.1400 1 0.81 2.4416 1 0.89 
Fuente: William E. Becker y Do- 0.3188 1 0.35 0.8150 1 0.65 
a co 2.2013 1 1.00 -0.1223 0 0.23 
LN 2.4473 1 0.80 0.1428 1 0.26 
Education, otoño de 1989, tabla 0.1153 1 0.40 -0.6681 0 0.64 
1, p. 373. 0.4110 1 0.07 1.8286 1 0.67 
2.6950 1 0.87 -0.6459 0 0.26 
2.2009 1 0.98 2.9784 1 0.63 
0.6389 1 0.28 -2.3326 0 0.09 
4.3192 1 0.99 0.8056 1 0.54 
-1.9906 0 0.04 -0.8983 0 0.74 
0.9021 0 0.37 -0.2355 0 0.17 
0.9433 1 0.94 1.1429 1 0.57 
-3.2235 0 0.04 0.2965 0 0.18 
0.1690 1 0.07 


* William E. Becker y Donald M. Waldman, “A Graphical Interpretation of Probit Coefficients”, Journal of Eco- 
nomic Education, vol. 20, núm. 4, otoño de 1989, pp. 371-378. 
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15.19. La tabla 15.27 del sitio web del libro de texto presenta datos de 2 000 mujeres en relación 
con el trabajo (1 = la mujer trabaja, 0 = no trabaja), edad, estado civil (1 = casada, 0 = 
otros), número de hijos y nivel de escolaridad (número de años de escolaridad). De un 
total de 2 000 mujeres, se registraron 657 que no perciben salario. 

a) Con estos datos, estime el modelo lineal de probabilidad (MLP). 


b) Con los mismos datos, estime un modelo logit y obtenga los efectos marginales de las 
diferentes variables. 


c) Repita b) con el modelo probit. 
d) ¿Qué modelo elegiría? ¿Por qué? 


15.20. Para el ejemplo de los fumadores analizado en el texto (sección 15.10), descargue los 
datos del sitio web del libro de texto que se presentan en la tabla 15.28. Vea si el producto 
de escolaridad e ingreso (es decir, el efecto de la interacción) tiene algún efecto sobre la 
probabilidad de llegar a ser fumador. 

15.21. Descargue el conjunto de datos Benign, que aparece en la tabla 15.29, del sitio web del 
libro de texto. La variable cáncer es dicótoma, donde 1 = tuvo cáncer mamario y 0 = no 
tuvo cáncer mamario.* Use las variables edad (= edad del sujeto), HIGD (= grado más 
alto de educación terminado), CHK (= 0 si el sujeto no se realizó exámenes médicos con 
regularidad y = 1 si el sujeto se realizó exámenes médicos con regularidad), AGPI (= 
edad cuando se embarazó por primera vez), abortos espontáneos ( = número de abortos 
espontáneos) y peso (= peso del sujeto) y ejecute una regresión logística para concluir si 
estas variables son estadísticamente útiles para pronosticar si una mujer se enfermará de 
cáncer mamario o no. 


Apéndice 15A 


15A.1 Estimación de máxima verosimilitud de los 
modelos probit y logit para datos individuales 
(no agrupados)t 


Como en el texto, suponga que nos interesa estimar la probabilidad de que un individuo sea propietario 
de una casa, dado el ingreso X de dicha persona. Suponemos que esta probabilidad se expresa mediante la 
función logística (15.5.2), que se reproduce a continuación. 


1 
is LH e PI+6X) (D) 


En realidad no observamos P;, sino sólo el resultado Y = 1, si un individuo es propietario de una casa, y 
Y = 0 si no lo es. 
Como cada Y; es una variable aleatoria Bernoulli, se expresa 


og = = (2) 
Pr(Y; = 0) = (1 — P;) (3) 


* Se proporcionan datos sobre 50 mujeres a quienes se les diagnosticó enfermedad mamaria benigna y 150 
controles que corresponden a la edad, con tres controles por caso. Los entrevistadores profesionales admi- 
nistraron un cuestionario estructurado estandarizado para recopilar información de cada sujeto del estudio 
(véase Pastides et al., 1983, y Pastides et al., 1985). 


t El siguiente análisis se basa en gran medida en John Neter, Michael H. Kutner, Christopher J. Nachsteim y 
William Wasserman, Applied Linear Statistical Models, 4a. ed., Irwin, 1996, pp. 573-574. 
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Suponga que tenemos una muestra aleatoria de n observaciones. Sea la función f;(Y,) tal que denote la 
probabilidad de que Y; = 1 o 0; la probabilidad conjunta de observar los n valores Y es decir, (Y, Yo,..., 
Y,), se expresa como: 


PO m a a a (4) 
1 1 


donde II es el operador producto; observe que escribimos la función de densidad de probabilidades con- 
juntas como producto de las funciones de densidad individuales, pues cada Y; se obtiene de manera inde- 
pendiente y cada Y; tiene la misma función de densidad (logística). La probabilidad conjunta dada en la 
ecuación (4) se conoce como función de verosimilitud (FV). 

Es un poco difícil manipular la ecuación (4). Pero si tomamos su logaritmo natural, obtenemos lo que se 
conoce como función log de verosimilitud (FLV): 


nf, Y... Yn) = Yi In Pi +(1— Y) In(1 — Po)] 
1 


= Y in PY In(1— Pi) +In(1— P)] (5) 
1 


=D rn == + Y ma -P) 
1 i 1 


De (1) resulta fácil verificar que 


Q- P) = 7% 6) 
así como 
a =81+02x 7) 
1 =P; 
Mediante (6) y (7) expresamos la FLV(5) como: 
O A 2 Y;(bı + bX) — Yin [eere] (8) 


Como se observa de (8), la función log de verosimilitud es una función de los parámetros fı y 2, pues se 
conocen las X;. 

En MV, el objetivo consiste en maximizar la FV (o la FLV), es decir, en obtener los valores de los pará- 
metros desconocidos de forma que la probabilidad de observar las Y dadas sea tan grande (máximo) como 
sea posible. Con este propósito, diferenciamos (8) parcialmente respecto de cada incógnita, igualamos las 
expresiones resultantes a cero y resolvemos las expresiones así obtenidas. Luego aplicamos la condición 
de maximización de segundo orden a fin de verificar que los valores de los parámetros obtenidos en verdad 
maximicen la FV. 

Por tanto, hay que diferenciar (8) respecto de 81 y 2, y proceder como se indicó. Como puede obser- 
var de inmediato, las expresiones resultantes se convierten en no lineales en grado sumo respecto de los 
parámetros, por lo que no se pueden obtener soluciones explícitas. Ésta es la razón por la que tendremos 
que utilizar uno de los métodos de estimación no lineal analizados en el capítulo anterior con el objeto de 
obtener soluciones numéricas. Una vez que se obtienen los valores numéricos de $; y 6», la ecuación (1) se 
estima con facilidad. 

El procedimiento de MV para el modelo probit es semejante al del modelo logit, excepto que en (1) 
utilizamos la FDA normal en vez de la FDA logística. La expresión resultante se complica un poco, pero la 
idea general es la misma. Así que no profundizaremos más. 


Capítulo l 6 


Modelos de regresión 
con datos de panel 


En el capítulo 1 analizamos con brevedad los tipos de datos que, por lo general, están disponibles 
para el análisis empírico, a saber: de series de tiempo, de corte transversal y de panel. En los 
datos de series de tiempo se observan los valores de una o más variables durante un periodo (por 
ejemplo, el PIB durante varios trimestres o varios años). En los datos de corte transversal, se re- 
copilan valores de una o más variables para varias unidades muestrales, o entidades, en el mismo 
punto en el tiempo (por ejemplo, la tasa de criminalidad en 50 estados de Estados Unidos en un 
año determinado). En los datos de panel, la misma unidad de corte transversal (una familia, una 
empresa o un estado) se estudia a lo largo del tiempo. En resumen, en los datos de panel está la 
dimensión del espacio y la del tiempo. 

Ya vimos un ejemplo de lo anterior en la tabla 1.1, la cual suministra datos sobre los hue- 
vos producidos y sus precios en 50 estados de Estados Unidos en 1990 y 1991. En cualquier 
año dado, los datos de los huevos y su precio representan una muestra transversal. Para un 
estado dado existen dos observaciones de series de tiempo: para los huevos y para su precio. En 
consecuencia, se tienen en total 100 observaciones (agrupadas) sobre los huevos producidos y 
sus precios. 

En la tabla 1.2 presentamos otro ejemplo de los datos de panel. Esta tabla contiene datos sobre 
inversión, valor de la empresa y capital accionario de cuatro empresas de 1935 a 1954. Los datos 
de cada empresa correspondientes al periodo 1935-1954 constituyen datos de series de tiempo, 
con 20 observaciones; los datos de las cuatro empresas para un año determinado son datos de 
corte transversal, con sólo cuatro observaciones; y los datos de todas las empresas para todos los 
años son datos de panel, con un total de 80 observaciones. 

Existen otros nombres para los datos de panel, como datos agrupados (agrupamiento de 
observaciones de series de tiempo y de corte transversal); combinación de datos de series 
de tiempo y de corte transversal; datos de micropanel; datos longitudinales (un estudio a lo 
largo del tiempo de una variable o grupo de sujetos); análisis de historia de sucesos (por ejem- 
plo, el estudio del movimiento de sujetos a lo largo del tiempo y a través de sucesivos estados o 
condiciones); análisis de generaciones (por ejemplo, dar seguimiento a la trayectoria profesional 
de los egresados en 1965 de una escuela de administración). Si bien hay variaciones sutiles, todos 
estos nombres en esencia tienen una connotación de movimiento de unidades de corte transversal 
a lo largo del tiempo. Por consiguiente, de forma genérica aplicaremos el término datos de panel 
para incluir uno o más de tales términos. Asimismo, denominaremos modelos de regresión con 
datos de panel a los modelos de regresión que se basan en tales datos. 

Cada vez son más comunes los datos de panel en la investigación económica. Algunos conjun- 
tos de datos de panel bien conocidos son: 


1. El estudio de panel de la dinámica del ingreso (EPDI) llevado a cabo por el Instituto de 
Investigación Social de la Universidad de Michigan. Iniciado en 1968, cada año el Instituto 
recopila datos sobre casi 5 000 familias respecto de diversas variables socioeconómicas y 
demográficas. 
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2. La Oficina del Censo, perteneciente al Departamento de Comercio de Estados Unidos, lleva a 
cabo un estudio similar al EPDI, llamado Estudio del ingreso y participación en programas 
(EIPP). Cuatro veces al año se entrevista a los participantes para conocer su situación econó- 
mica. 


3. El panel alemán socioeconómico (PALSOE) estudió a 1 761 individuos cada año entre 1984 
y 2002. Se recopiló información sobre año de nacimiento, sexo, satisfacción con la vida, es- 
tado civil, percepciones laborales individuales y horas de trabajo anuales de cada sujeto del 
estudio de 1984 a 2002. 


Asimismo, existen muchos otros estudios que llevan a cabo varias oficinas gubernamentales, 
como: 


Estudio de familias, ingresos y dinámica del trabajo en Australia (HILDA, por sus siglas en 
inglés). 

Estudio de panel de familias británicas (BHPS, por sus siglas en inglés). 

Estudio de panel de mano de obra e ingreso en Corea (KLIPS, por sus siglas en inglés). 


Desde el principio conviene hacer una advertencia: el tema de la regresión con datos de panel 
es muy amplio, y parte de las matemáticas y las estadísticas que implica son muy complejas. Sólo 
pretendemos abarcar algunos aspectos esenciales de los modelos de regresión con datos de panel, 
y dejamos los detalles para consulta en las referencias.! Pero advertimos que algunas referencias 
son excesivamente técnicas. Por fortuna, existen paquetes de software accesibles, como LIMDEP, 
PC-GIVE, SAS, STATA, SHAZAM y EViews, entre otros; estos programas facilitan en gran me- 
dida la tarea de implementar realmente las regresiones con datos de panel. 


¿Por qué datos de panel? 


¿Cuáles son las ventajas de los datos de panel respecto de los datos de corte transversal o de se- 
ries de tiempo? Baltagi menciona las siguientes ventajas de los datos de panel:? 


1. Como los datos de panel se refieren a individuos, empresas, estados, países, etc., a lo largo del 
tiempo, lo más seguro es la presencia de heterogeneidad en estas unidades. Las técnicas de 
estimación de datos de panel toman en cuenta de manera explícita tal heterogeneidad, al per- 
mitir la existencia de variables específicas por sujeto, como veremos en breve. Utilizamos el 
término sujeto en un sentido genérico para incluir microunidades como individuos, empresas, 
estados y países. 


2. Al combinar las series de tiempo de las observaciones de corte transversal, los datos de panel 
proporcionan “una mayor cantidad de datos informativos, más variabilidad, menos colineali- 
dad entre variables, más grados de libertad y una mayor eficiencia”. 


3. Al estudiar las observaciones en unidades de corte transversal repetidas, los datos de panel 
resultan más adecuados para estudiar la dinámica del cambio. Los conjuntos de datos respecto 
del desempleo, la rotación en el trabajo y la movilidad laboral se estudian mejor con datos de 
panel. 


4. Los datos de panel detectan y miden mejor los efectos que sencillamente ni siquiera se obser- 
van en datos puramente de corte transversal o de series de tiempo. Por ejemplo, los efectos 


1 Algunas referencias son G. Chamberlain, “Panel Data”, en Handbook of Econometrics, vol. Il; Z. Griliches 

y M.D. Intriligator (eds.), North-Holland, 1984, cap. 22; C. Hsiao, Analysis of Panel Data, Cambridge 
University Press, 1986; G.C. Judge, R.C. Hill, W.E. Griffiths, H. Lutkepohl y T.C. Lee, Introduction to the Theory 
and Practice of Econometrics, 2a. ed., John Wiley & Sons, Nueva York, 1985, cap. 11; W.H. Greene, Econome- 
tric Analysis, 6a. ed., Prentice-Hall, Englewood Cliffs, Nueva Jersey, 2008, cap. 19; Badi H. 

Baltagi, Econometric Analysis of Panel Data, John Wiley and Sons, Nueva York, 1995, y J.M. Wooldridge, 
Econometric Analysis of Cross Section and Panel Data, MIT Press, Cambridge, Massachusetts, 1999. Para un 
análisis detallado del tema con aplicaciones empíricas, véase Edward W. Frees, Longitudinal and Panel Data: 
Analysis and Applications in the Social Sciences, Cambridge University Press, Nueva York, 2004. 


2 Baltagi, op. cit., pp. 3-6. 
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de las leyes concernientes al salario mínimo sobre el empleo y los salarios se estudian mejor 
si incluimos oleadas sucesivas de incrementos a los salarios mínimos en los salarios mínimos 
estatales y/o federales. 

5. Los datos de panel permiten estudiar modelos de comportamiento más complejos. Por ejem- 
plo, fenómenos como las economías de escala y el cambio tecnológico son más maniobra- 
bles con los datos de panel que con los datos puramente de corte transversal o de series de 
tiempo. 

6. Al hacer disponibles datos para varios miles de unidades, los datos de panel reducen el sesgo 
posible si se agregan individuos o empresas en conjuntos numerosos. 


En resumen, los datos de panel enriquecen el análisis empírico de manera que no sería posible 
con sólo datos de corte transversal o de series de tiempo. Con lo anterior no sugerimos que se 
eliminan todos los problemas con los modelos de datos de panel. Analizaremos dichos problemas 
después de ver algo de teoría y analizar algunos ejemplos. 


16.2 Datos de panel: un ejemplo ilustrativo 


Con el objeto de preparar el terreno, presentemos un ejemplo concreto. Considere los datos de la 
tabla 16.1 del sitio web del libro de texto, los cuales se recopilaron originalmente por el profesor 
Moshe Kim y se tomaron del libro de William Greene.* Los datos analizan los costos de seis lí- 
neas de aviación comercial de 1970 a 1984, para un total de 90 observaciones de datos de panel. 

Las variables se definen como sigue: / = identificación de la aerolínea; T = identificación 
del año; O = producción, como ingresos por milla por pasajero, un índice; C = costo total, en 
1 000 dólares; PF = precio del combustible; y LF = factor de carga, la utilización promedio de 
la capacidad de la flotilla. 

Suponga que deseamos averiguar cómo se comporta el costo total (C) en relación con la 
producción (O), el precio del combustible (PF) y el factor de carga (LF). En resumen, deseamos 
estimar la función de costos de la aerolínea. 

¿Cómo estimamos esta función? Desde luego, podemos estimar la función de costo de cada 
aerolínea con los datos de 1970 a 1984 (es decir, una regresión de series de tiempo). Esto se logra 
con el procedimiento acostumbrado de mínimos cuadrados ordinarios (MCO). En total habrá seis 
funciones de costo, una para cada aerolínea. Sin embargo, olvidaríamos así la información sobre 
las otras aerolíneas que operan en el mismo entorno (de regulación). 

También podemos estimar una función de costo de corte transversal (es decir, una regresión 
de corte transversal). En total habrá 15 regresiones de corte transversal, una por año. Pero esto no 
tendría mucho sentido en el presente contexto, pues sólo se tienen seis observaciones por año y 
hay tres variables explicativas (más el término del intercepto); habrá muy pocos grados de libertad 
para realizar un análisis significativo. Además, no se “explota” el carácter de panel de los datos. 

Por cierto, los datos de panel del ejemplo se denominan panel balanceado; se dice que un 
panel es balanceado si cada sujeto (empresa, individuos, etc.) tiene el mismo número de obser- 
vaciones. Si cada entidad tiene un número diferente de observaciones, se tiene un panel des- 
balanceado. En la mayor parte de este capítulo trabajaremos con paneles balanceados. En la 
bibliografía de datos de panel también se mencionan los términos panel corto y panel largo. En 
un panel corto, el número de sujetos de corte transversal, N, es mayor que el número de periodos, 
T. En un panel largo, T es mayor que N. Como explicaremos más adelante, las técnicas de estima- 
ción dependen de que se cuente con un panel corto o uno largo. 

Entonces, ¿qué opciones hay? Existen cuatro posibilidades. 


1. Modelo de MCO agrupados. Tan sólo se agrupan las 90 observaciones y se estima una 
“gran” regresión, sin atender la naturaleza de corte transversal y de series de tiempo de los 
datos. 


3 William H. Greene, Econometric Analysis, 6a. ed., 2008. Los datos se localizan en http://pages.stern.nyu. 
edu/-wgreen/Text/econometricanalysis.htm. 
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2. Modelo de mínimos cuadrados con variable dicótoma (MCVD) de efectos fijos. Aquí se 
agrupan las 90 observaciones, pero se permite que cada unidad de corte transversal (es decir, 
cada aerolínea en este ejemplo) tenga su propia variable dicótoma (intercepto). 

3. Modelo de efectos fijos dentro del grupo. En este caso también se agrupan las 90 observa- 
ciones, pero por cada aerolínea expresamos cada variable como una desviación de su valor 
medio y luego estimamos una regresión de MCO sobre los valores corregidos por la media o 
“Sin media”. 

4. Modelo de efectos aleatorios (MEFA). A diferencia del modelo de MCVD, en el que se per- 
mite que cada aerolínea tenga su propio valor de intercepto (fijo), suponemos que los valores 
del intercepto son una extracción aleatoria de una población mucho mayor de aerolíneas. 


A continuación analizamos cada método con los datos de la tabla 16.1. (Véase el sitio web del 
libro de texto.) 


16.3 Modelo de regresión con MCO agrupados 


o de coeficientes constantes 


Considere el siguiente modelo: 


Ci = Bi + B2Qu + B3 P Fir + PaL Fir + tir (16.3.1) 
i=1,2,...,6 
A E 


donde i es el ¡-ésimo sujeto y f es el periodo para las variables que se definieron antes. Elegimos 
la función lineal de costo para efectos ilustrativos, pero en el ejercicio 16.10 se pedirá estimar 
una función log-lineal, o doble-log, en cuyo caso los coeficientes de la pendiente darán las esti- 
maciones de elasticidad. 

Observe que agrupamos las 90 observaciones en su totalidad, pero tenga en cuenta que supo- 
nemos que los coeficientes de regresión son iguales para todas las aerolíneas. Es decir, no hay 
distinción entre ellas: una aerolínea es tan buena como otra, supuesto quizá dificil de sostener. 

Se supone que las variables explicativas no son estocásticas. Si lo son, no están correlaciona- 
das con el término de error. En ocasiones se supone que las variables explicativas son estricta- 
mente exógenas. Se dice que una variable es estrictamente exógena si no depende de los valores 
actuales, pasados y futuros del término de error tit 

También se supone que el término de error es u; ~ iid(0, 02), es decir, distribuido de manera 
independiente e idéntica, con media cero y varianza constante. Para efectos de la prueba de 
hipótesis, podemos suponer que el término de error está distribuido normalmente. Observe la 
notación con doble subíndice de la ecuación (16.3.1), la cual se explica por sí misma. 

Presentemos primero los resultados de la ecuación estimada (16.3.1) y luego analizaremos los 
problemas que presenta este modelo. Los resultados de la regresión basados en EViews, versión 
6, se presentan en la tabla 16.2. 

Si examina los resultados de la regresión agrupada y aplica los criterios convencionales, 
verá que todos los coeficientes de regresión no sólo son muy significativos estadísticamente, sino 
que también concuerdan con las expectativas previas y que el valor de R? es muy alto. El único 
“pelo en la sopa” es que el estadístico estimado de Durbin-Watson es muy bajo, lo que indica una 
posible autocorrelación o correlación espacial de los datos. Por supuesto, como bien sabemos, un 
valor bajo Durbin-Watson también puede deberse a errores de especificación. 

El problema principal de este modelo es que no distingue entre las diferentes aerolíneas ni 
indica si la respuesta de costo total a las variables explicativas a través del tiempo es la misma 
para todas las aerolíneas. En otras palabras, si agrupamos diferentes aerolíneas en diferentes 
periodos se oculta la heterogeneidad (individualidad o singularidad) que puede existir entre las 
aerolíneas. Otra forma de plantear esto es que la individualidad de cada sujeto se subsume en el 
término de perturbación u; En consecuencia, es muy posible que el término de error se correla- 
cione con algunas regresoras del modelo. En ese caso, los coeficientes estimados en la ecuación 
(16.3.1) pueden estar sesgados, además de ser inconsistentes. Recuerde que un supuesto impor- 


TABLA 16.2 
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Variable dependiente: C 
Método: Mínimos cuadrados 
Observaciones incluidas: 90 


Coeficiente Error estándar Estadístico t Prob. 

C (intercepto) 1158559. 2161059257 a 212930 0.0018 

Q 2026114. 61806.95 320 VELA! 0.0000 

PF IIS: 0103722 11.S1380 0.0000 

LF 23065753F 6027 0.3 -4.402747 0.0000 
R cuadrada 0.946093 Media de la variable dependiente 1122524. 

R cuadrada ajustada 0.944213 Desviación estándar de la 

Error estándar de la regresión 281559.5 variable dependiente 1192075. 
Suma de cuadrados residual 6.82E+12 Estadístico F 503.1176 
Prob. (estadístico F) 0.000000 
Durbin-Watson 0.434162 


tante del modelo clásico de regresión lineal es que no hay correlación entre las regresoras y el 
término de perturbación o error. 

Para ver cómo el término de error se correlaciona con las regresoras, considere la siguiente 
revisión del modelo (16.3.1): 


Ci = Bi + BP Fit + BL Fit + BaM;; + Uit (16.3.2) 


donde la variable adicional M = filosofia de la administración o calidad de la administración. De 
las variables en la ecuación (16.3.2), sólo la variable M es invariante en el tiempo (o constante 
en el tiempo) porque varía entre sujetos, pero es constante a través del tiempo para un sujeto 
(aerolínea) dado. 

Aunque es invariante en el tiempo, la variable M no puede observarse directamente y, por 
tanto, no se puede medir su contribución a la función de costo. Sin embargo, esto se consigue de 
manera indirecta si escribimos la ecuación (16.3.2) como 


Cu = Pi + BaP Fa + B3LF; +05 + ti (16.3.3) 


donde «;,, denominado efecto no observado o de heterogeneidad, refleja el efecto de M sobre el 
costo. Observe que, para simplificar, sólo mostramos el efecto no observado de M sobre el costo, 
pero en realidad puede haber más efectos no observados; por ejemplo, el carácter de la propiedad 
(pública o privada), si se trata de una empresa propiedad de una minoría, si el director general es 
hombre o mujer, etc. Aunque dichas variables pueden diferir entre sujetos (aerolíneas), es proba- 
ble que no varíen para un sujeto dado durante el periodo de la muestra. 

Como q; no es directamente observable, ¿por qué no considerarlo aleatorio e incluirlo en el 
término de error u;, y, por tanto, considerar el término de error compuesto v; = œ; + ui? Ahora 
escribimos la ecuación (16.3.3) así: 


Cu = Br + PaP Fi +P3LF;¡ + Vi (16.3.4) 


Pero si el término q, incluido en el término de error v;, está correlacionado con cualquiera de 
las regresoras de la ecuación (16.3.4), hay una violación de un supuesto fundamental del modelo 
clásico de regresión lineal: que el término de error no está correlacionado con las regresoras. 
Como sabemos, en esta situación los estimados de MCO no sólo están sesgados, sino que tam- 
bién son inconsistentes. 

Existe una posibilidad real de que el término «, no observable esté correlacionado con una o 
más de las regresoras. Por ejemplo, la administración de una aerolínea puede actuar de manera in- 
teligente y comprar contratos de futuro sobre el precio del combustible para evitar fluctuaciones 
bruscas de los precios. Esto tendría el efecto de reducir el costo de los servicios de la aerolínea. 
Como resultado de esta correlación, podemos demostrar que cov (Vir, Vis) = o; t # s, que es 
diferente de cero, y, por tanto, la heterogeneidad (no observada) induce autocorrelación y habrá 
que prestarle atención. Más adelante indicaremos cómo manejar este problema. 
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En consecuencia, la pregunta es cómo se toman en cuenta los efectos no observables, o hetero- 
geneidad, para obtener estimaciones consistentes y eficientes de los parámetros de las variables de 
interés primordial, que son producción, precio del combustible y factor de carga en este caso. 
El interés primordial quizá no se centre en obtener el efecto de las variables no observables 
porque éstas no cambian para un sujeto dado. Por esta razón, los efectos no observables, o hete- 
rogeneidad, se llaman parámetros incómodos. ¿Cómo proceder entonces? Lo veremos a conti- 
nuación. 


16.4 Modelo de mínimos cuadrados con variable dicótoma 


(MCVD) de efectos fijos 


FIGURA 16.1 


Sesgo por omitir los 
efectos fijos. 


El modelo de mínimos cuadrados con variable dicótoma (MCVD) toma en cuenta la heterogenei- 
dad entre sujetos porque permite que cada entidad tenga su propio valor del intercepto, como se 
muestra en el modelo (16.4.1). Una vez más, trabajaremos con el ejemplo de las aerolíneas. 


Cir = Pu + PQ + PaP Fn + PaLFu F tin (16.4.1) 
t= A 
A A A > 


Observe que utilizamos el subíndice ¡ en el término del intercepto para indicar que los intercep- 
tos de las seis aerolíneas pueden ser diferentes. Las diferencias quizá se deban a características 
especiales de cada aerolínea, como el estilo de administración, la filosofía de la empresa o el tipo 
de mercado que atiende cada aerolínea. 

En la bibliografía, el modelo (16.4.1) se conoce como modelo (regresión) de efectos fijos 
(MEP). El término “efectos fijos” se debe a que, aunque el intercepto puede diferir entre los 
sujetos (en este caso las seis aerolíneas), el intercepto de cada entidad no varía con el tiempo, es 
decir, es invariante en el tiempo. Observe que si el intercepto se escribiera By;,, indicaría que el 
intercepto de cada entidad o individuo es variable en el tiempo. Cabe señalar que el MEF dado 
en la ecuación (16.4.1) supone que los coeficientes (de las pendientes) de las regresoras no varían 
según los individuos ni a través del tiempo. 

Antes de seguir adelante, es útil visualizar la diferencia entre el modelo de regresión agrupada 
y el modelo de MCVD,. Para simplificar, suponga que deseamos efectuar una regresión del costo 
total sólo sobre la producción. En la figura 16.1 se muestra esta función de costo estimada para 
dos aerolíneas por separado, así como la función de costo si agrupamos los datos de las dos em- 


Grupo 4 . F EY X;,) = 07 + PX, 


Pendiente sesgada cuando 


e e. œ, ° : 5 
ee ¡A se omiten los efectos fijos 


Costo total 


Producción 
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presas; esto equivale a no tomar en cuenta los efectos fijos.* En la figura 16.1 se observa cómo la 
regresión agrupada sesga la estimación de la pendiente. 

¿Cómo se permite en realidad que el intercepto (de efecto fijo) varíe entre las aerolíneas? Se 
realiza con facilidad mediante la técnica de las variables dicótomas que explicamos en el capítulo 
9, en particular las variables dicótomas con intercepto diferencial. Ahora expresamos así la 
ecuación (16.4.1): 


Ci = 041 +09 D + 03D3; + 04Da¡ + 5 Ds; + 06 Do 
+ P200 + PsP Fir + PaL Fir + ttir (16.4.2) 


donde Dz; = 1 si la observación corresponde a la aerolínea 2, y O en otro caso; D3; = 1 si la 
observación es de la aerolínea 3, y 0 en otro caso; y así sucesivamente. Como se trata de seis 
aerolineas, sólo utilizamos cinco variables dicótomas para evitar caer en la trampa de la va- 
riable dicótoma (es decir, una situación de colinealidad perfecta). En este caso, la aerolínea 1 
se considera la categoría base o de referencia. Desde luego, podemos elegir cualquier aerolínea 
como punto de referencia. Como resultado, el intercepto a, es el valor del intercepto de la ae- 
rolínea 1, y los demás coeficientes œ representan el grado en que los valores de los interceptos 
de las demás aerolíneas difieren del valor del intercepto de la primera aerolínea. Así, œz indica 
por cuánto difiere de œ; el valor del intercepto de la segunda aerolínea. La suma (œ; +0) da el 
valor real del intercepto de la aerolínea 2. Los valores de los interceptos de las demás aerolíneas 
se calculan del mismo modo. Recuerde que si desea introducir una variable dicótoma para cada 
aerolínea, es necesario omitir el intercepto (común); de lo contrario, caerá en la trampa de la 
variable dicótoma. 

Los resultados del modelo (16.4.2) para estos datos se presentan en la tabla 16.3. 

Lo primero que debe notarse en estos resultados es que todos los coeficientes de los inter- 
ceptos diferenciales son muy significativos estadísticamente en lo individual, lo cual indica que 
tal vez las seis aerolíneas son heterogéneas y, por tanto, los resultados de la regresión agrupada 
presentados en la tabla 16.2 son dudosos. Los valores de los coeficientes de las pendientes de las 
tablas 16.2 y 16.3 también son diferentes, lo que una vez más arroja dudas sobre los resultados 
de la tabla 16.2. Al parecer, el modelo (16.4.1) es mejor que el modelo (16.3.1). A propósito, ob- 
serve que los MCO aplicados a un modelo de efectos fijos producen estimadores que se llaman 
estimadores de efectos fijos. 


TABLA 16.3 


Variable dependiente: CT 
Método: Mínimos cuadrados 
Muestra: 1-90 
Observaciones incluidas: 90 


Coeficiente Error estándar Estadístico t Prob. 

C (=01) -LS 1236 0 SLOT Al -0.374129 07093 

10) 32190227 TSst. dl 19. 30935) 0.0000 

PF ETT ONE D. OSTILE TALES 0.0000 

LF =I1ITIOD GLIVE d -6.186924 0.0000 

DIC2 SOLVIS a Z 100895.7 EMCR 0.0000 

DIC3 133 TLSIO. 186 171...0 TABA 0.0000 

DIC4 LTS 213162.9 8. 3239126 00000 

DICES 1828252. 232297 7.0661 0.0000 

DIC6 1706474. 228300.9 7.474672 0.0000 
R cuadrada 0.971642 Media de la variable dependiente LAA ZA 

R cuadrada ajustada 0.968841 Desviación estándar de la 

Error estándar de la regresión 210422.8 variable dependiente 1LIAO7S - 
Suma de cuadrados residual 3.59E+12 Estadístico F 346.9188 
Log verosimilitud -1226.082 Prob. (estadístico F) 0.000000 
Estadístico Durbin-Watson 0.693288 


4 Adaptado de las notas inéditas de Alan Duncan. 


598 


Parte Tres 


Temas de econometria 


Podemos proporcionar una prueba formal de los dos modelos. En relación con el modelo 
(16.4.1), el modelo (16.3.1) es un modelo restringido pues impone un intercepto común para 
todas las aerolíneas. En consecuencia, podemos utilizar la prueba F restringida analizada en 
el capítulo 8. Mediante la fórmula (8.6.10), el lector puede verificar que en el ejemplo presente el 
valor F es: 


p — (0-971642 — 0.946093)/5 
~ (1=0.971642)/81 


Nota: Los valores de R? restringida y no restringida se obtienen de las tablas 16.1 y 16.2. Observe 
también que el número de restricciones es 5 (¿por qué?) 

La hipótesis nula en este caso es que todos los interceptos diferenciales son iguales a cero. El 
valor F calculado de 5 gl para el numerador y 81 gl para el denominador es muy significativo es- 
tadísticamente. Por tanto, se rechaza la hipótesis nula de que todos los interceptos (diferenciales) 
son iguales a cero. Si el valor F no fuera significativo estadísticamente, concluiríamos que no hay 
diferencias entre los interceptos de las seis aerolíneas. En este caso, habríamos agrupado las 90 
observaciones, como en la regresión agrupada de la tabla 16.2. 

El modelo (16.4.1) se conoce como modelo de efectos fijos unidireccionales porque permite 
que los interceptos varíen entre las aerolíneas. Pero también podemos permitir el efecto tiempo 
si creemos que la función de costo cambia con el tiempo a causa de otros factores, como los 
avances tecnológicos, variaciones en las políticas de regulación gubernamental o fiscal, así como 
otros efectos. Tales efectos temporales se toman en cuenta con facilidad si introducimos variables 
dicótomas temporales, una para cada año de 1970 a 1984. Como hay datos para 15 años, introdu- 
cimos 14 variables dicótomas temporales (¿por qué?) y ampliamos el modelo (16.4.1) mediante 
la adición de estas variables. Si hacemos eso, el modelo resultante se llama modelo de efectos 
fijos bidireccionales porque tiene en cuenta los efectos tanto individuales como temporales. 

En el presente ejemplo, si agregamos las variables dicótomas de tiempo, tendremos que es- 
timar 23 coeficientes en total: el intercepto común, cinco variables dicótomas de las aerolíneas, 
14 variables dicótomas de tiempo y tres coeficientes de pendientes. Como se ve, consumiremos 
varios grados de libertad. Además, si permitimos que los coeficientes de las pendientes difieran 
entre empresas, las cinco variables de empresas (aerolíneas) interactúan con cada una de las tres 
variables explicativas e introducen coeficientes de pendientes diferenciales dicótomas. Enton- 
ces habrá que estimar 15 coeficientes adicionales (interacciones de cinco variables dicótomas 
con tres variables explicativas). Como si esto fuera poco, si las 14 variables dicótomas de tiempo 
interactúan con las tres variables explicativas, tendremos un total de 42 coeficientes adicionales 
que deben estimarse. Como se aprecia, no queda ningún grado de libertad. 


= 14.99 


Advertencia sobre el modelo de MCVD de efectos fijos 


Como indica el análisis precedente, el modelo MCVD presenta algunos problemas que es nece- 
sario tener en cuenta: 

Primero, si se introducen demasiadas variables dicótomas, puede presentarse el problema de 
los grados de libertad. Es decir, no habrá observaciones suficientes para un análisis estadístico 
significativo. Segundo, con tantas variables dicótomas en el modelo, tanto individuales como 
interactivas o multiplicativas, siempre está presente la posibilidad de la multicolinealidad, que 
puede dificultar la estimación precisa de uno o más parámetros. 

Tercero, en algunas situaciones, es posible que el modelo de MCVD no identifique el efecto de 
las variables que no cambian con el tiempo. Suponga que deseamos estimar la función de salario 
de un grupo de trabajadores con datos de panel. Además del salario, una función de salario in- 
cluye edad, experiencia y nivel de escolaridad como variables explicativas. Suponga también que 
decidimos incluir género, color y origen étnico como variables adicionales del modelo. Como 
estas variables no cambian con el tiempo para cada individuo, el modelo MCVD quizá no iden- 
tifique el impacto sobre los salarios de estas variables que no cambian con el tiempo. En otras 
palabras, los interceptos específicos de cada sujeto absorben toda la heterogeneidad que exista en 
las variables dependiente y explicativas. Por cierto, las variables que no cambian con el tiempo a 
veces se llaman variables incómodas o variables ocultas. 
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Cuarto, tenemos que reflexionar con mucho cuidado sobre el término de error u;i Los resul- 
tados presentados en las ecuaciones (16.3.1) y (16.4.1) se basan en el supuesto de que el término 
de error se apega a los supuestos clásicos, a saber: u; ~ N(0, o°). Como el índice i se refiere a las 
observaciones de corte transversal y £ a las observaciones de series de tiempo, quizá deba modi- 
ficarse el supuesto clásico respecto de u;,. Existen diversas posibilidades: 


1. Podemos suponer que la varianza del error es la misma para todas las unidades de corte trans- 
versal, o que la varianza del error es heteroscedástica.? 


2. Para cada individuo, podemos suponer que no existe autocorrelación a través del tiempo. 
Entonces, en el ejemplo ilustrativo, podemos suponer que el término de error de la función de 
costo de la aerolínea 1 no está autocorrelacionado, o bien, que sí lo está, digamos con el tipo 
AR(1). 

3. En un determinado tiempo, es posible que el término de error de la aerolínea 1 esté correla- 
cionado con el término de error de la aerolínea 2, por ejemplo.* O bien, podemos suponer que 
no existe tal correlación. 


Existen también otras permutaciones y combinaciones del término de error. Como es fácil darse 
cuenta, si se permite una o más de estas posibilidades, el análisis se complica mucho más. (El 
espacio disponible y las exigencias matemáticas impiden considerar todas las posibilidades. En 
las referencias de la nota 1 se analizan algunos de estos temas.) No obstante, algunos de estos 
problemas pueden resolverse con las opciones que analizamos en las siguientes dos secciones. 


16.5 Estimador de efectos fijos dentro del grupo (DG) 


Una forma de estimar una regresión agrupada es eliminar el efecto fijo, 61, expresando los 
valores de las variables dependiente y explicativas de cada aerolínea como desviaciones de sus 
respectivos valores medios. Así, para la aerolínea 1 obtenemos los valores muestrales medios de 
TC, O, PF y LF (TC, O, PF y LF, respectivamente) y los restamos de los valores individua- 
les de estas variables. Los valores resultantes se llaman valores corregidos por la media, o “sin 
media”. Hacemos esto con cada aerolínea y luego agrupamos todos los (90) valores corregidos 
por la media para ejecutar una regresión de MCO. 

Si tCin qin Pfa y Ifa representan los valores corregidos por la media, efectuamos la siguiente 
regresión: 


tCit = Baqu + B3 Pfit + Balfi + tit (16.5.1) 


donde i = 1, 2,...,6,y t= 1,2,..., 15. Observe que la ecuación (16.5.1) no tiene término de 
intercepto (¿por qué?). 

De vuelta al ejemplo, obtenemos los resultados de la tabla 16.4. Nota: El prefijo DM significa 
que los valores están corregidos por la media o expresados como desviaciones de sus medias 
muestrales. 

Observe la diferencia entre la regresión agrupada que presentamos en la tabla 16.2 y la de 
la tabla 16.4. La primera tan sólo omite la heterogeneidad entre las seis aerolineas, mientras 
que la segunda la toma en cuenta no por el método de la variable dicótoma, sino que la elimina 
mediante la diferenciación de las observaciones de la muestra en torno a sus medias muestrales. 
La diferencia entre las dos es evidente, como se aprecia en la figura 16.2. 

Se muestra que el estimador DG produce estimaciones consistentes de los coeficientes de pen- 
diente, mientras que la regresión agrupada ordinaria tal vez no. Sin embargo, debe añadirse que 


5 STATA ofrece errores estándar corregidos por heteroscedasticidad en los modelos de regresión con datos 
de panel. 

é Esto conduce al llamado modelo de regresión aparentemente no relacionado (SURE, por sus siglas 
en inglés), propuesto originalmente por Arnold Zellner. Véase A. Zellner, “An Efficient Method of Estimating 
Seemingly Unrelated Regressions and Tests for Aggregation Bias”, Journal of the American Statistical Associa- 
tion, vol. 57, 1962, pp. 348-368. 
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TABLA 16.4 


Variable dependiente: DMCT 
Método: Mínimos cuadrados 
Muestra: 1-90 
Observaciones incluidas: 90 


Coeficiente Error estándar Estadístico t Prob. 
DMQ SILOOIS 155339 6 20. 07S 0.0000 
DMPF Oo 773071 0, 093903 232030 0.0000 
DMLF 3797308 o SI2I3I0 5 = ALLOTAS 0.0000 
R cuadrada 0.929366 Media de la variable dependiente 2.59E-11 
R cuadrada ajustada 0.927743 Desviación estándar de la 755325.8 
Error estándar de la regresión 203037.2 variable dependiente 0.693287 
Suma de cuadrados residual 3.59E+12 Estadístico Durbin-Watson 
FIGURA 16.2 yo 
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los estimadores DG, aunque consistentes, son ineficientes (es decir, tienen varianzas grandes) en 


Producción 


comparación con los resultados de la regresión agrupada ordinaria.” Observe que los coeficientes 
de pendiente de Q, PF y LF son idénticos en las tablas 16.3 y 16.4. Esto es porque matemática- 


mente los dos modelos son idénticos. A propósito, los coeficientes de regresión estimados por el 


método DG se llaman estimadores DG. 
Una desventaja del estimador DG se explica con el siguiente modelo de regresión salarial: 


W; = Bii + B2Experiencia;, + B3Edad;, + B4Género;, + BsEducación;, + B6Raza;r 


En esta función de salario, las variables como género, educación y raza son invariantes en el 
tiempo. Si usamos estimadores DG, estas variables que no cambian con el tiempo se eliminarían 


(16.5.2) 


7 La razón de esto es que, cuando las variables se expresan como desviaciones de sus valores medios, la 

variación en estos valores corregidos por la media es mucho más pequeña que la variación de los valores 
originales de las variables. En ese caso, la variación del término de perturbación uj puede ser relativamente 
grande, lo que produce errores estándar más altos de los coeficientes estimados. 
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(por la diferenciación). Como resultado, no se sabemos cómo reacciona el salario ante estas va- 
riables invariantes en el tiempo.* Pero es el precio que hay que pagar para evitar la correlación 
entre el término de error (œ; incluido en vy) y las variables explicativas. 

Otra desventaja del estimador DG es que “puede distorsionar los valores de los parámetros y 
desde luego eliminar los efectos de largo plazo”.? En general, cuando se diferencia una variable, 
se elimina el componente de largo plazo de esa variable. Lo que queda es el valor de corto plazo 
de esa variable. Analizaremos este tema en detalle cuando expliquemos la econometría de series 
de tiempo, más adelante. 

Al usar MCVD obtuvimos estimaciones directas de los interceptos de cada aerolínea. ¿Cómo 
podemos obtener las estimaciones de los interceptos con el método DG? En el ejemplo de las 
aerolíneas se obtienen como sigue: 


âi = Ci — 20i — Ês PF; B4LF (16.5.3) 


donde las barras sobre las variables denotan valores muestrales medios de las variables para la 
i-ésima aerolínea. 

Es decir, obtuvimos el valor del intercepto de la i-ésima aerolínea al restar del valor medio de 
la variable dependiente los valores medios de las variables explicativas de esa aerolinea multi- 
plicados por los coeficientes estimados de pendiente que se obtuvieron con los estimadores DG. 
Observe que los coeficientes estimados de pendiente permanecen igual para todas las aerolineas, 
como se muestra en la tabla 16.4. Cabe señalar que el intercepto estimado en la ecuación (16.5.3) 
se asemeja al intercepto que estimamos en el modelo de regresión lineal estándar, que se presenta 
en la ecuación (7.4.21). Se deja al lector la tarea de calcular los interceptos de las seis aerolineas 
de la manera mostrada y verificar que son iguales a los valores de los interceptos derivados en la 
tabla 16.3, salvo por errores de redondeo. 

Observe que el intercepto estimado de cada aerolínea representa las características especifi- 
cas de cada aerolínea, pero no podremos identificar estas características individualmente. Por 
consiguiente, el intercepto œ; de la aerolínea 1 representa la filosofía de la administración de esa 
aerolínea, la composición del consejo de administración, la personalidad del director general, 
el género del director general, etc. Todas estas características de heterogeneidad se integran al 
valor del intercepto. Como veremos más adelante, tales características se incluyen en el modelo 
de efectos aleatorios. 

A propósito, debe señalarse que una alternativa al estimador DG es el método de primeras 
diferencias. En el método DG expresamos cada variable como una desviación del valor medio 
de dicha variable. En el método de primeras diferencias, por cada sujeto se obtienen diferencias 
sucesivas de las variables. Así, para la aerolínea 1 se resta la primera observación de TC de la 
segunda observación de TC, la segunda observación de TC de la tercera, y así sucesivamente. 
Hacemos lo mismo con cada variable restante y repetimos el proceso con las demás cinco aerolí- 
neas. Después de este proceso tenemos sólo 14 observaciones por aerolínea, pues la primera ob- 
servación no tiene valor previo. Como resultado, ahora tenemos 84 observaciones en lugar de las 
90 originales. A continuación efectuamos la regresión de los valores de primeras diferencias de la 
variable TC sobre los valores de primeras diferencias de las variables explicativas como sigue: 


ATC; = PaA Qin + BAP Fu + P4ALFir F(t — 4; 11) 
t= A (16.5.4) 
t=1,2,...,84 


donde A = (TC = TC; 1-1). Como señalamos en el capítulo 11, A se conoce como operador de 
primeras diferencias. !? 


8 Esto también aplica al modelo MCVD. 


? Dimitrios Asteriou y Stephen G. Hall, Applied Econometrics: A Modern Approach, Palgrave Macmillan, Nueva 
York, 2007, p. 347. 


10 Observe que la ecuación (16.5.3) no tiene término de intercepto (¿por qué?), pero podemos incluirlo si 
hay una variable de tendencia en el modelo original. 
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A propósito, observe que el término de perturbación original se sustituye con la diferencia 
entre los valores actuales y anteriores del término de perturbación. Si el término de perturba- 
ción original no está autocorrelacionado, la perturbación transformada sí lo está y, por tanto, 
presenta los tipos de problemas de estimación que analizamos en el capítulo 11. Sin embargo, si 
las variables explicativas son estrictamente exógenas, el estimador de primeras diferencias es 
insesgado, dados los valores de las variables explicativas. Asimismo, observe que el método de 
primeras diferencias tiene las mismas desventajas del método DG en el sentido de que las varia- 
bles explicativas que no varían con el tiempo para un individuo se eliminan en la transformación 
de primeras diferencias. 

Vale la pena señalar que los estimadores de primeras diferencias y de efectos fijos son iguales 
cuando sólo se tienen dos periodos, pero si hay más de dos periodos, estos estimadores difieren. 
Las razones de esto son muy complejas y el lector interesado puede consultar las referencias. !! 
Se deja como ejercicio aplicar el método de primeras diferencias al ejemplo de las aerolíneas y 
comparar los resultados con los demás estimadores de efectos fijos. 


16.6 Modelo de efectos aleatorios (MEFA) 


Al comentar sobre los modelos de efectos fijos, o MCVD, Kmenta escribe:!? 


Una pregunta obvia en conexión con el modelo de covarianza [es decir, MCVD] es si de verdad es 
necesario incluir variables dicótomas —con la consecuente pérdida de grados de libertad—. El fun- 
damento del modelo de covarianza es que, al especificar el modelo de regresión, no hemos podido 
incluir variables explicativas relevantes que no varíen con el tiempo (y posiblemente otras que sí 
cambian con el tiempo, pero que tienen el mismo valor para todas las unidades de corte transversal), 
y que la inclusión de variables dicótomas es un encubrimiento de nuestra ignorancia. 


Si las variables dicótomas en efecto reflejan una falta de conocimiento respecto del modelo 
(real), ¿por qué no expresar dicha ignorancia mediante el término de perturbación? Éste es preci- 
samente el método propuesto por los partidarios del modelo de componentes del error (MCE), 
o modelo de efectos aleatorios (MEFA), que ilustraremos a continuación con la función de 
costo de las líneas aéreas. 

La idea básica es comenzar con la ecuación (16.4.1): 


T Cir = Pu + B2Qir + B3 P Fir + PaL Fit + ui (16.6.1) 
En vez de considerar fija a 61;, suponemos que es una variable aleatoria con un valor medio 


igual a £; (en este caso, sin subíndice i). Además, el valor del intercepto para una empresa indi- 
vidual se expresa como: 


Bii = Bi + £i (16.6.2) 


donde e; es un término de error aleatorio con valor medio igual a cero y varianza de 0?. 

Lo que afirmamos en esencia es que las seis empresas de la muestra se tomaron de un universo 
mucho más grande de este tipo de compañías, que tienen una media común para el intercepto 
(= 61) y que las diferencias individuales en los valores del intercepto de cada empresa se reflejan 
en el término de error £;. 

Al sustituir (16.6.2) en (16.6.1) obtenemos: 

TCi = Pi + B200 + B3PFi + PaL Fit + £i + Us (16.6.3) 
= Pi + b2Qit + B3 P Fit + PaL Fir + Wit gi 
donde 


Wit = Ei + Uit (16.6.4) 


11 Véase en particular Jeffrey M. Woolridge, Econometric Analysis of Cross Section and Panel Data, MIT Press, 
Cambridge, Massachusetts, 2002, pp. 279-283. 


12 Jan Kmenta, Elements of Econometrics, 2a. ed., Macmillan, Nueva York, 1986, p. 633. 
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El término de error compuesto w; consta de dos componentes, £; componente de error de 
corte transversal o error específico del individuo, y uin la combinación del componente de error 
de series de tiempo y corte transversal, y que a veces se denomina término idiosincrásico porque 
varía en el corte transversal (es decir, el sujeto) así como en el tiempo. El modelo de componentes 
del error (MCE) debe su nombre a que el término de error compuesto consiste en dos (o más) 
componentes del error. 

Los supuestos comunes en los que se basa el MCE son: 


ei ~ N(0, 0?) 

Uit ~ N(0, og) 

E(eiui) =0; Eleje,)=0 (i#j) 

E(u;¡u¡s) = E(uijuij) = E(Uittjs)=0 (Aj tAs) 


es decir, los componentes del error individuales no están correlacionados entre sí y no están 
autocorrelacionados en las unidades de series de tiempo ni en las de corte transversal. También 
es muy importante observar que w;, no está correlacionado con ninguna variable explicativa del 
modelo. Como e; es un componente de w;, es posible que el segundo esté correlacionado con 
las variables explicativas. Si en efecto es así, el MCE producirá una estimación inconsistente de 
los coeficientes de regresión. En breve analizaremos la prueba de Hausman, que indica en una 
aplicación dada si w;, está correlacionado con las variables explicativas, es decir, si el MCE es el 
modelo apropiado. 

Observe con cuidado la diferencia entre el MEF y el MCE. En el MEF, cada unidad de corte 
transversal tiene su propio valor (fijo) de intercepto, en todos los valores de N para N unidades 
de corte transversal. Por otra parte, en el MCE, el intercepto (común) representa el valor medio de 
todos los interceptos (de corte transversal), y el componente de error e; significa la desviación 
(aleatoria) del intercepto individual respecto de este valor medio. No obstante, tenga en cuenta 
que e; no es directamente observable; esto se conoce como variable inobservable o latente. 

Como resultado de los supuestos establecidos en (16.6.5), se deriva que: 


E(w;) =0 (16.6.6) 
var (wi) = 0? + 02 (16.6.7) 


(16.6.5) 


Ahora, si o? = 0, no hay diferencia entre los modelos (16.3.1) y (16.6.3), en cuyo caso tan sólo 
se agrupan todas las observaciones (de corte transversal y de series de tiempo) y se lleva a cabo 
la regresión agrupada, como hicimos en (16.3.1). Esto es válido porque en esta situación no hay 
efectos específicos del sujeto o porque todos se tomaron en cuenta en las variables explicativas. 

Como muestra la ecuación (16.6.7), el término de error es homoscedástico. Sin embargo, 
puede demostrarse que w;; y Wis (t # s) están correlacionados; es decir, los términos de error de 
una unidad de corte transversal dada en dos puntos en el tiempo están correlacionados. El coefi- 
ciente de correlación, corr(w;;, Wis), es el siguiente: 


2 
E 


p = COTT (Wit, Wis) = ts (16.6.8) 


o? tog 

Observe dos características especiales del coeficiente de correlación anterior. Primera, para 
cualquier unidad de corte transversal dada, el valor de la correlación entre los términos de error 
en dos momentos sigue siendo el mismo, sin importar la distancia entre los dos periodos, como 
resulta evidente de (16.6.8). Esto representa un fuerte contraste con el esquema de primer orden 
[AR(1)] que analizamos en el capítulo 12, donde descubrimos que la correlación entre periodos 
decrece con el tiempo. Segunda, la estructura de correlación dada en (16.6.8) sigue siendo la 
misma para todas las unidades de corte transversal; es decir, es idéntica para todos los sujetos. 

Si no tomamos en cuenta esta estructura de correlación y calculamos (16.6.3) mediante MCO, 
los estimadores resultantes serán ineficientes. El método más adecuado en este caso es el de mí- 
nimos cuadrados generalizados (MCG). 
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TABLA 16.5 


Variable dependiente: CT 


Método: Panel EMCG 


Muestra: 1-15 
Periodos incluidos 
Secciones de corte 


(efectos aleatorios de corte transversal) 


AS 
transversal incluidas: 6 


Total de observaciones de panel (balanceado): 90 
Estimador Swamy y Arora de varianzas de componentes 


Coeficiente Error estándar Estadístico t Prob. 
E 107429.3 3039662 3.534251 0.0007 
Q 2288588. 88172 E 215795572 0.0000 
PF 12359. 0,083298 13.48877 0.0000 
LF -3084994. 584373.2 E SAL 0.0000 

Especificación de efectos 
DARS Rho 

Aleatorios de corte transversal TOTA IMEZ 0.2067 
Aleatorios idiosincrásicos 210422.8 0.7933 


Empresa Efecto 


DUNA 
DUNA 


¿QU  =270815.0 
.000000  -87061.32 
.000000 -21338.40 
.000000 TOWA S) 
.000000 134488.9 
.000000 57383.00 


Dentro del presente contexto, no analizaremos las matemáticas de MCG, debido a su comple- 
jidad.!* En vista de que el software estadístico más moderno cuenta ya con rutinas para estimar 
los MCE (así como los MEF), sólo presentaremos los resultados del ejemplo ilustrativo. Pero 
antes de hacerlo, conviene notar que (16.4.2) se puede ampliar con facilidad a fin de incluir un 
componente de error aleatorio para tomar en cuenta la variación en el tiempo (véase el ejercicio 
16.6). 

Los resultados de la estimación del MCE de la función de costo de las aerolíneas se presentan 
en la tabla 16.5. 

Observe estas características del MEFA. El valor (promedio) del intercepto es de 107 429.3. 
Los valores (diferenciales) del intercepto de las seis entidades se presentan al final de los resulta- 
dos de la regresión. Por ejemplo, la empresa número 1 tiene un valor de intercepto que es 270 615 
unidades menor que el valor del intercepto común de 107 429.3; el valor real del intercepto de 
esta aerolínea es entonces —163 185.7. Por otro lado, el valor del intercepto de la empresa nú- 
mero 6 es 57 383 unidades mayor que el valor del intercepto común; el valor real del intercepto de 
esta aerolínea es (107 429,3 + 57 383), o 164 812,3. Los valores de los interceptos de las demás 
aerolíneas se derivan de modo similar. Sin embargo, debe señalarse que si se suman los valores 
(diferenciales) de los interceptos de las seis aerolíneas, la suma es 0, como debe ser (¿por qué?). 

Si compara los resultados de las regresiones de efectos fijos y efectos aleatorios, observará 
diferencias considerables entre los dos. La pregunta importante ahora es: ¿qué resultados son 
confiables? O, de otro modo, ¿qué modelo debe elegirse? Aplicaremos la prueba de Hausman 
para aclarar esta duda. 

La hipótesis nula en que se basa la prueba de Hausman es que los estimadores MEF y MCE 
no difieren considerablemente. El estadístico de prueba desarrollado por Hausman tiene distribu- 


13 Véase Kmenta, op. cit., pp. 625-630. 
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TABLA 16.6 


Efectos aleatorios correlacionados. Prueba de Hausman 
Ecuación: Sin título 
Prueba de efectos aleatorios de corte transversal 


Estadístico 
Resumen de la prueba ji cuadrada gl ji cuadrada Prob. 
Aleatorios de corte transversal 49.619687 3 0.0000 


Comparaciones de la prueba de efectos aleatorios de corte transversal 


Variable Fijos Aleatorios Var (dif.) Prob. 
Q ISLAS. es) 22188587795 AMOS TITS 0.0000 
PF 0.1107 PIS 07002532 0.0000 
LF =3I19IVDOT 59 -3084994.0 35225469544. 0.0001 


ción asintótica x?. Si se rechaza la hipótesis nula, la conclusión es que el MCE no es apropiado 
porque es probable que los efectos aleatorios estén correlacionados con una o más regresoras. 
En este caso, MEF se prefiere a MCE. En el ejemplo, los resultados de la prueba de Hausman se 
presentan en la tabla 16.6. 

Es claro que la prueba de Hausman rechaza la hipótesis nula, pues el valor estimado de x? para 
3 gl es muy significativo; si la hipótesis nula fuera verdadera, la probabilidad de obtener un valor 
de ji cuadrada de 49.62 o mayor sería prácticamente cero. Como resultado, rechazamos el MCE 
(MEFA) en favor del MEF. A propósito, la última parte de la tabla precedente compara los coefi- 
cientes de efectos fijos y efectos aleatorios de cada variable, y, como indica la última columna, en 
el presente ejemplo las diferencias son significativas estadísticamente. 


Prueba del multiplicador de Lagrange de Breusch y Pagan!* 


Además de la prueba de Hausman, también podemos aplicar la prueba de Breusch-Pagan (BP) a 
la hipótesis de que no hay efectos aleatorios, es decir, de que o? en la ecuación (16.6.7) es cero. 
Los paquetes de software como STATA incorporan esta prueba. Según la hipótesis nula, BP sigue 
la distribución ji cuadrada con 1 gl; sólo hay 1 gl porque se está probando la hipótesis única de 
que 0? = 0. No presentaremos la fórmula en que se basa la prueba porque es muy complicada. 

De nuevo con el ejemplo de las aerolíneas, la aplicación de la prueba BP produce un valor ji 
cuadrada de 0.61. Con 1 gl, el valor p de obtener un valor ji cuadrada de 0.61 o mayor es alrede- 
dor de 43%. Por consiguiente, no rechazamos la hipótesis nula. En otras palabras, el modelo de 
efectos aleatorios no es apropiado en el presente ejemplo. Así, la prueba BP refuerza la prueba 
de Hausman, con la que también llegamos a la conclusión de que el modelo de efectos aleatorios 
no es adecuado para el ejemplo de las aerolíneas. 


16.7 Propiedades de varios estimadores!” 


Analizamos ya varios métodos para estimar modelos de regresión (lineal) de panel, a saber: esti- 
madores agrupados, estimadores de efectos fijos con estimadores de mínimos cuadrados con va- 
riable dicótoma (MCVD), estimadores de efectos fijos dentro de grupos, estimadores de primeras 
diferencias y estimadores de efectos aleatorios. ¿Qué propiedades estadísticas tienen? Como los 
datos de panel comprenden por lo general una gran cantidad de observaciones, nos concentrare- 
mos en la propiedad de consistencia de estos estimadores. 


14T, Breush y A.R. Pagan, “The Lagrange Multiplier Test and Its Application to Model Specification in Econo- 
metrics”, Review of Economic Studies, vol. 47, 1980, pp. 239-253. 

15 El siguiente análisis se basa en A. Colin Cameron y Pravin K. Trivedi, Microeconometrics: Methods and Appli- 
cations, Cambridge University Press, Cambridge, Nueva York, 2005, capítulo 21. 
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Estimadores agrupados 

En el supuesto de que los coeficientes de pendiente son constantes a través de todos los sujetos, si 
el término de error de la ecuación (16.3.1) no está correlacionado con las regresoras, los estimado- 
res agrupados son consistentes. Sin embargo, como ya señalamos, es probable que los términos de 
error se correlacionen con el paso del tiempo para un sujeto dado. Por consiguiente, deben usarse 
errores estándar de panel corregidos para las pruebas de hipótesis. El lector debe asegurarse de 
que el paquete estadístico empleado tenga esta facilidad; de lo contrario, pueden subestimarse los 
errores estándar calculados. Debe subrayarse que si el modelo de efectos fijos es apropiado pero 
utilizamos el estimador agrupado, los coeficientes estimados serán inconsistentes. 


Estimadores de efectos fijos 


Aunque se suponga que el modelo subyacente es agrupado o aleatorio, los estimadores de efectos 
fijos siempre son consistentes. 


Estimadores de efectos aleatorios 
El modelo de efectos aleatorios es consistente aunque el verdadero modelo sea el estimador agru- 
pado. Sin embargo, si el verdadero modelo es de efectos fijos, el estimador de efectos aleatorios 
es inconsistente. 

Para demostraciones y mayores detalles sobre estas propiedades, consulte los libros de texto 
de Cameron y Trivedi, Greene y Wooldridge mencionados en las notas. 


16.8 Modelo de efectos fijos y modelo de efectos aleatorios: 


algunos lineamientos 


La disyuntiva que enfrenta un investigador es: ¿qué modelo es mejor, MEF o MCE? La respuesta 
gira en torno del supuesto respecto de la probable correlación entre el componente de error indi- 
vidual, o específico de la unidad de corte transversal, e;, y las regresoras X. 

Si se supone que e; y las X no están correlacionados, el MCE puede resultar apropiado; pero 
si e; y las X están correlacionados, entonces el MEF puede ser adecuado. 

El supuesto en que se basa el MCE es que e; representa una muestra aleatoria de una población 
mucho más grande, aunque no siempre es así. Por ejemplo, suponga que deseamos estudiar el 
índice de delincuencia en los 50 estados de Estados Unidos. Como es lógico, en este caso no se 
sostiene el supuesto de que los 50 estados son una muestra aleatoria. 

Teniendo en cuenta esta diferencia fundamental en los dos métodos, ¿qué más podemos decir 
respecto de la elección entre el MEF y el MCE? A continuación presentamos las observaciones 
de Judge et al., las cuales pueden resultar de utilidad: *'* 


1. Si 7 (el número de datos de series de tiempo) es grande y N (el número de unidades de corte 
transversal) es pequeño, es probable que haya muy poca diferencia entre los valores de los 
parámetros estimados mediante el MEF y el MCE. Por tanto, en este caso la elección se basa 
en la conveniencia de cálculo. Desde esta perspectiva, parece preferible el MEF. 

2. Cuando N es grande y T pequeño (es decir, un panel corto), las estimaciones obtenidas me- 
diante los dos métodos pueden variar de manera significativa. Recuerde que en MCE, B¡¡= 61 
+ e¡, donde e; es el componente aleatorio transversal, en tanto que en MEF se considera que 
Bii es fijo y no aleatorio. En el último caso, la inferencia estadística depende de las unidades 
de corte transversal observadas en la muestra. Lo anterior resulta adecuado si tenemos la 
firme convicción de que las unidades individuales, o de corte transversal, en la muestra no se 
extrajeron de manera aleatoria de una muestra mayor. En ese caso, el MEF es adecuado. Sin 
embargo, si consideramos que las unidades de corte transversal de la muestra se extrajeron de 
modo aleatorio, el MCE es adecuado, pues aquí la inferencia estadística es incondicional. 

3. Si el componente de error individual e, y una o más de las regresoras están correlacionados, los 
estimadores MCE están sesgados, en tanto que los obtenidos a partir del MEF no lo están. 


16 Judge et al., op. cit., pp. 489-491. 
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4. Si N es grande y T pequeña, y si los supuestos en los que se basa el MCE son aún válidos, los 
estimadores MCE son más eficientes que los estimadores MEF. 

5. A diferencia del MEF, el MCE puede estimar los coeficientes de variables que no cambian con 
el tiempo, como el género y el origen étnico. El MEF controla las variables que no cambian 
con el tiempo, pero no puede estimarlas de manera directa, como evidencian los modelos 
MCVD y de estimadores dentro de grupos. Por otra parte, MEF controla todas las variables 
invariantes en el tiempo (¿por qué?), mientras que MCE sólo estima las variables invariantes 
en el tiempo que se introducen explícitamente en el modelo. 


Independientemente de la prueba de Hausman, es importante tener en cuenta la advertencia 
de Johnston y DiNardo. Al decidir entre el modelo de efectos fijos y el de efectos aleatorios, 
argumentan que “no hay una regla sencilla que ayude al investigador a navegar entre el Escila de 
los efectos fijos y el Caribdis del error de medición y la selección dinámica. Sin embargo, aunque 
representan una mejora respecto de los datos de corte transversal, los datos de panel no son una 


cura milagrosa para todos los problemas de los econometristas”.!” 


16.9 Regresiones con datos de panel: algunos comentarios 


para concluir 


Como mencionamos al principio, el tema de la creación de modelos con datos de panel es vasto 
y complejo. Apenas tocamos la superficie. Entre los puntos que no hemos analizado destacan los 
siguientes: 

1. Pruebas de hipótesis con datos de panel. 

2. Heteroscedasticidad y autocorrelación en MCE. 

3. Datos de panel desbalanceado. 
4 


. Modelos dinámicos con datos de panel en los que el (los) valor(es) rezagado(s) de la regresada 
aparecen como una variable explicativa. 


5. Ecuaciones simultáneas que se relacionan con datos de panel. 
6. Variables dependientes cualitativas y datos de panel. 
7. Raíces unitarias en datos de panel (en relación con las raíces unitarias, véase el capítulo 21). 


Uno o más de estos temas se encuentran en las referencias citadas en este capítulo, por lo que 
se exhorta al lector a que las consulte a fin de aprender más sobre dichos temas. Las referencias 
también citan diversos estudios empíricos en diversas áreas de negocios y económicas mediante 
modelos de regresión con datos de panel. Se aconseja al principiante que lea algunas de esas 
aplicaciones con el fin de darse una idea de la forma en que los investigadores han puesto en 
práctica dichos modelos.'* 


16.10 Algunos ejemplos ilustrativos 


EJEMPLO 16.1 
Productividad e in- 
versión pública 


Para averiguar por qué disminuye la productividad y qué función desempeña la inversión pú- 
blica, Alicia Munnell estudió datos de productividad en los 48 estados del territorio continental 
de Estados Unidos durante 17 años, de 1970 a 1986, para un total de 816 observaciones.!? Con 
estos datos estimamos la regresión agrupada de la tabla 16.7. Observe que esta regresión no 
toma en cuenta la naturaleza de panel de los datos. 

La variable dependiente de este modelo es PEB (producto estatal bruto), y las variables expli- 
cativas son CAPPRIV (capital privado), CAPPUB (capital público), AGUA (capital del servicio de 
agua) y DESEMP (tasa de desempleo). Nota: L representa el logaritmo natural. 


(continúa) 
17 Jack Johnston y John DiNardo, Econometric Methods, 4a. ed., McGraw-Hill, 1997, p. 403. 


18 Para más detalles y aplicaciones concretas, véase Paul D. Allison, Fixed Effects Regression Methods for Longi- 
tudinal Data, Using SAS, SAS Institute, Cary, Carolina del Norte, 2005. 


19 Los datos de Munnell se encuentran en www.aw-bc.com/murray. 
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EJEMPLO 16.1 TABLA 16.7 


(continuación) Variable dependiente: LPEB 
Método: Mínimos cuadrados de panel 


Muestra: 1970-1986 
Periodos incluidos: 17 
Secciones de corte transversal incluidas: 48 


Total de observaciones de panel (balanceado): 816 
Coeficiente Error estándar Estadístico t Prob. 

E 0.907604 070928 9.937854 0.0000 
LCAPPRIV 0.376011 0027 USE 13.54847 0.0000 
LCAPPUB 0.351478 0.016162 21.74758 0.0000 

LAGUA 0. 312955) O. Qu3755 16.70062 0.0000 
LDESEMP -0.069886 0, OSOS -4.630528 0.0000 
R cuadrada 0.981624 Media de la variable dependiente 10.50885 
R cuadrada ajustada 0.981533 Desviación estándar de la 
Error estándar de la regresión 0.138765 variable dependiente dl PILLS 
Suma de cuadrados residual 15 LSO) Estadístico F 10830.51 
Log verosimilitud 456.2346 Prob. (estadístico F) 0.000000 
Estadístico Durbin-Watson 0.063016 


Todas las variables tienen los signos esperados y todas son estadísticamente significativas, 
tanto en lo individual como colectivamente, si se asumen válidos todos los supuestos del modelo 


clásico de regresión lineal. 


Para tomar en cuenta la dimensión de panel de los datos, en la tabla 16.8 se estimó un 
modelo de efectos fijos con 47 variables dicótomas para los 48 estados a fin de evitar caer en 


TABLA 16.8 


Variable dependiente: LPEB 
Método: Mínimos cuadrados de panel 


Muestra: 1970-1986 

Periodos incluidos: 17 

Unidades de corte transversal incluidas: 48 

Total de observaciones de panel (balanceado): 816 


Coeficiente Error estándar Estadístico t Prob. 

G 0.0325 0.208648 20. 159286 ORSalS 
LCAPPRIV 0.267096 0. 0370115 7.215864 0.0000 
LCAPPUB 0.714094 0.026520 216926216 0.0000 

LAGUA 0.088272 0,0215 4.090291 0.0000 
LDESEMP -0.138854 0. 007 SEV GIGLI 0.0000 

Especificación de efectos 
Fijos de corte transversal (variables dicótomas) 
R cuadrada 0.997634 Media de la variable dependiente 10.50885 
R cuadrada ajustada 0.997476 Desviación estándar de la 
Error estándar de la regresión 0.051303 variable dependiente TOZLA 
Suma de cuadrados residual 2.010854 Estadístico F SILES 
Log verosimilitud LADA SS Prob. (estadístico F) 0.000000 
Estadístico Durbin-Watson 0.520682 
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EJEMPLO 16.1 TABLA 16.9 
(continuación) Variable dependiente: LPEB 

Método: Panel EMCG (efectos aleatorios de corte transversal) 

Muestra: 1970-1986 

Periodos incluidos: 17 

Unidades de corte transversal incluidas: 48 

Total de observaciones de panel (balanceado): 816 

Estimador Swamy y Arora de varianzas de componentes 

Coeficiente Error estándar Estadístico t Prob. 
el -0.046176 0.161637 -0.285680 0.7752 
LCAPPRIV 0.313980 0.029740 10.55760 0.0000 
LCAPPUB 0.641926 0.023330 27.51514 0.0000 
LAGUA 0.130768 0.020281 6.447875 0.0000 
LDESEMP -0.139820 0.007442 -18.78669 0.0000 
Especificación de efectos 
D.E Rho 
Aleatorios de corte transversal OSIOTA 0.8655 
Aleatorios idiosincrásicos 0.051303 0.1345 
la trampa de las variables dicótomas. Para ahorrar espacio, sólo presentamos los coeficientes 
estimados de la regresión y no los coeficientes de cada variable dicótoma. Sin embargo, debe 
añadirse que las 47 variables dicótomas estatales fueron muy significativas estadísticamente en 
lo individual. 

Se observan diferencias considerables entre la regresión agrupada y la regresión de efectos 
fijos, lo que despierta dudas sobre los resultados de la regresión agrupada. 

Para ver si el modelo de efectos aleatorios es más apropiado en este caso, en la tabla 16.9 
presentamos los resultados del modelo de regresión de efectos aleatorios. 

Para elegir entre los dos modelos aplicamos la prueba de Hausman, que arrojó los resultados 
de la tabla 16.10. 

Como el valor estimado ji cuadrada es muy significativo estadísticamente, rechazamos la 
hipótesis de que no hay diferencia significativa en los coeficientes estimados de los dos mode- 
los. Al parecer, existe correlación entre el término de error y una o más de las regresoras. Por 
tanto, podemos rechazar el modelo de efectos aleatorios y elegir el modelo de efectos fijos. Sin 
embargo, hay que tener en cuenta, como muestra la última parte de la tabla 16.10, que no 
todos los coeficientes difieren en los dos modelos. Por ejemplo, no existe diferencia significativa 
estadísticamente en los valores del coeficiente de LDESEMP en los dos modelos. 

TABLA 16.10 
Estadístico 
Resumen de la prueba ji cuadrada gl ji cuadrada Prob. 
Aleatorios de corte transversal 42.458353 4 0.0000 


Comparaciones de la prueba de efectos aleatorios de corte transversal: 


Variable Fijos Aleatorios Var (dif.) Prob. 
LCAPPRIV 0261096 0, LADO) 0.000486 0.0334 
LCAPPUB 0.714094 0.641926 O OUOLSS 0.0000 

LAGUA 0.088272 0.130768 0.000054 0.0000 
LDESEMP -0.138854 0), 13/20) 0.000006 0.1993 
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EJEMPLO 16.2 
Demanda de elec- 
tricidad en Estados 
Unidos 


TABLA 16.11 


En su artículo, Maddala et al. consideraron la demanda residencial de electricidad y gas natural 
en 49 estados de Estados Unidos de 1970 a 1990; Hawai no se incluyó en el análisis.2 Recopi- 
laron datos sobre diversas variables; estos datos se encuentran en el sitio web del libro. En este 
ejemplo sólo consideraremos la demanda residencial de electricidad. Primero presentamos los 
resultados con base en la estimación de efectos fijos (tabla 16.11) y después la estimación de 
efectos aleatorios (tabla 16.12), seguidas de una comparación de los dos modelos. 


Variable dependient 


e: Log(CREPC) 


Método: Mínimos cuadrados de panel 


bestias 1S971L=15990) 
Periodos incluidos: 
Unidades de corte t 


20 
ransversal incluidas: 49 


Total de observaciones de panel (balanceado): 980 
Coeficiente Error estándar Estadístico t Prob. 
E 212.,55760 0.363436 -34.55249 0.0000 
Log (PRE) -0.628967 0.029089 =D LIDO 0.0000 
Log (IDRPC) 1.062439 0.040280 26.37663 0.0000 


Especificación de efectos 


Fijos de corte transversal (variables dicótomas) 


R cuadrada 0.757600 Media de la variable dependiente -4.536187 
R cuadrada ajustada 0.744553 Desviación estándar de la 

Error estándar de la regresión ORD 986; variable dependiente 0.316205 
Suma de cuadrados residual PEA Criterio de información de Akaike -0.778954 
Log verosimilitud 432.6876 Criterio de Schwarz -0.524602 
Estadístico F 58.07007 Criterio de Hannan-Quinn -0.682188 
Prob. (estadístico F) 0.000000 Estadístico Durbin-Watson 0.404314 


donde Log(CREPC) = logaritmo natural del consumo residencial de electricidad per cápita (mi- 
llones de btu = unidades térmicas británicas), Log(PRE) = logaritmo natural del precio real de 
la electricidad en 1987 y Log(IDRPC) = logaritmo natural del ingreso disponible real per cápita 
en 1987. 

Como se trata de un modelo de doble logaritmo, los coeficientes estimados de pendiente 
representan elasticidades. Por tanto, cuando todos los demás factores permanecen constantes, 
si el ingreso real per cápita aumenta 1%, la media del consumo de electricidad aumenta casi 1%. 
Asimismo, cuando todo lo demás permanece constante, si el precio real de la electricidad au- 
menta 1%, el consumo promedio de electricidad disminuye alrededor de 0.6 por ciento. Todas 
las elasticidades estimadas son significativas estadísticamente. 

Los resultados del modelo de error aleatorio se presentan en la tabla 16.12. 

Al parecer, no hay mucha diferencia entre los dos modelos. Pero con la prueba de Hausman 
podemos averiguar si esto es verdad. Los resultados de la prueba aparecen en la tabla 16.13. 

Aunque los coeficientes de los dos modelos de las tablas 16.11 y 16.12 dan la impresión de 
ser muy parecidos, la prueba de Hausman demuestra que no es así. El valor ji cuadrada es muy 
significativo estadísticamente. Por tanto, elegimos el modelo de efectos fijos y no el de efectos 


20 G.S. Maddala, Robert P. Trost, Hongyi Li y Frederick Joutz, “Estimation of Short-run and Long-run Elastici- 
ties of Demand from Panel Data Using Shrikdage Estimators”, Journal of Business and Economic Statistics, vol. 
15, núm. 1, enero de 1997, pp. 90-100. 
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EJEMPLO 16.2 TABLA 16.12 


(continuación) Variable dependiente: Log(CREPC) 
Método: Panel EMCG (efectos aleatorios de corte transversal) 


Muestra eror 

Periodos incluidos: 20 

Unidades de corte transversal incluidas: 49 

Total de observaciones de panel (balanceado): 980 
Estimador Swamy y Arora de varianzas de componentes 


Coeficiente Error estándar Estadístico t Prob. 

(E 111 GSDI6 0253285 -33.07631 0.0000 

Log (PRE) -0.665570 0.028088 -23.69612 0.0000 
Log (IDRPC) 0.980877 0. 03:9257 24.98617 0.0000 


Especificación de efectos 


D.E Rho 
Aleatorios de corte transversal 0.123560 0.3741 
Aleatorios idiosincrásicos 0.159816 0.6259 


Estadísticas ponderadas 


R cuadrada 0.462591 Media de la variable dependiente 260295 
R cuadrada ajustada 0.461491 Desviación estándar de la 

Error estándar de la regresión 0.168096 variable dependiente 0.229066 
Estadístico F 420.4906 Suma de cuadrados residual 27.60641 
Prob. (estadístico F) 0.000000 Estadístico Durbin-Watson 0.345453 


Estadísticas sin ponderar 


R cuadrada 0.267681 Media de la variable dependiente -4.536187 
Suma de cuadrados residual 71.68384 Estadístico Durbin-Watson Oa SEOS) 
TABLA 16.13 


Efectos aleatorios correlacionados. Prueba de Hausman 
Petece Sbm titulo 
Prueba de efectos aleatorios de corte transversal 


Estadístico 
Resumen de la prueba ji cuadrada gl ji cuadrada Prob. 
Aleatorios de corte transversal TUS AOS d0 2 0.0000 


Comparaciones de la prueba de efectos aleatorios de corte transversal: 


Variable Fijos Aleatorios Var (dif.) Prob. 
Log (PRE) -0.628967 =0 005570 0.000057 0.0000 
Log (IDRPC) 1.062439 0.980877 0.000081 0.0000 


aleatorios. Este ejemplo destaca el punto importante de que cuando el tamaño de la muestra es 
grande, en este caso 980 observaciones, hasta las diferencias más pequeñas en los coeficientes 
estimados de los dos modelos pueden ser estadísticamente significativas. En consecuencia, los co- 
eficientes de la variable Log(PRE) de los dos modelos se ven razonablemente parecidos, pero 
estadísticamente no lo son. 
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EJEMPLO 16.3 
Consumo de cer- 
veza, ingreso e im- 
puesto sobre ventas 
de cerveza 


TABLA 16.14 


Para evaluar el efecto del impuesto sobre ventas de cerveza en el consumo de esta bebida, Philip 
Cook investigó la relación entre los dos después de tener en cuenta el efecto del ingreso.?! Los 
datos corresponden a los 50 estados de Estados Unidos y Washington, D.C., de 1975 a 2000. En 
este ejemplo estudiamos la relación de las ventas de cerveza per cápita y la tasa impositiva y el 
ingreso, todo en el ámbito estatal. Se presentan los resultados de los modelos de MCO agrupa- 
dos, efectos fijos y efectos aleatorios en forma tabular en la tabla 16.14. La variable dependiente 
es ventas de cerveza per cápita. 

Estos resultados son interesantes. De acuerdo con la teoría económica, se espera una relación 
negativa entre el consumo de cerveza y los impuestos sobre ventas de cerveza, que es precisa- 
mente lo que ocurre en los tres modelos. El efecto negativo del ingreso sobre el consumo de 
cerveza indica que la cerveza es un bien inferior, es decir, un producto cuya demanda decrece 
a medida que el ingreso del consumidor aumenta. Tal vez cuando el ingreso aumenta, los con- 
sumidores prefieren champaña. 

Para los efectos que aquí interesan, lo importante es la diferencia entre los coeficientes esti- 
mados. En apariencia, no hay mucha diferencia entre los coeficientes estimados con el MEF y 
MCE. De hecho, la prueba de Hausman produce un valor ji cuadrada de 3.4, que no es signifi- 
cativo para 2 gl en el nivel de 5%; el valor p es 0.1783. 

Sin embargo, los resultados basados en MCO son muy diferentes. El coeficiente de la variable 
impuesto sobre ventas de cerveza, en valor absoluto, es mucho más pequeño del que se obtiene 
con el MEF o con el MCE. La variable ingreso, aunque tiene signo negativo, no es estadística- 
mente significativa, mientras que los otros dos modelos muestran que es muy significativa. 

Este ejemplo revela de manera muy vívida lo que puede ocurrir si descuidamos la estructura 
de panel de los datos y estimamos una regresión agrupada. 


Variable MCO MEF MEFA 

Constante 1.4192 1.7617 1.7542 
(24.37) (52.23) (39.22) 

Impuesto s/ventas cerveza 0.0067 0.0183 0.0181 
(22.13) (=9.67) (-9.69) 

Ingreso -3.54(e79) -0.000020 -0.000019 
(21.12) (=9.17) (=9.10) 

R? 0.0062 0.0052 0.0052 

Notas: Las cifras entre paréntesis son las razones t estimadas. —3.54(e76) = —0.00000354. 


Resumen y 
conclusiones 


1. Los modelos de regresión de panel se basan en los datos de panel, los cuales consisten en 
observaciones sobre las mismas unidades de corte transversal, o individuales, a lo largo de 
varios periodos. 

2. Existen diversas ventajas en los datos de panel. Primera, incrementan de modo considerable 
el tamaño de la muestra. Segunda, al estudiar observaciones de corte transversal repetidas, 
los datos de panel resultan más adecuados para estudiar las dinámicas del cambio. Tercera, los 
datos de panel permiten estudiar modelos de comportamiento más complejos. 

3. A pesar de sus ventajas sustanciales, los datos de panel plantean diversos problemas de esti- 
mación y de inferencia. Como esos datos implican dimensiones de corte transversal y tem- 
porales, necesitan abordarse los problemas que plagan a los datos de corte transversal (por 
ejemplo, la heteroscedasticidad) y los datos de series de tiempo (por ejemplo, la autocorre- 
lación). Además hay otros problemas, como la correlación cruzada en unidades individuales 
en el mismo punto en el tiempo. 


21 Estos datos provienen del sitio web de Michael P. Murphy, Econometrics: A Modern Introduction, Pearson/ 
Addison Wesley, Boston, 2006, pero los datos originales fueron recopilados por Philip Cook para su libro 
Paying the Tab: The Costs and Benefits of Alcohol Control, Princeton University Press, Princeton, Nueva Jersey, 
2007. 
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4. Hay varias técnicas de estimación para abordar uno o más de estos problemas. Las dos más 
importantes son: 1) el modelo de efectos fijos (MEF) y 2) el modelo de efectos aleatorios 
(MEFA) o modelo de componentes del error (MCE). 

5. En el MEF se permite que el intercepto en el modelo de regresión difiera entre individuos, a 
manera de reconocimiento de que cada unidad individual, o transversal, pueda tener algunas 
características especiales por sí mismas. A fin de tomar en cuenta los distintos interceptos, 
se pueden utilizar variables dicótomas. El MEF que emplea esas variables se conoce como 
modelo de mínimos cuadrados con variable dicótoma (MCVD). El MEF resulta apropiado 
en situaciones donde el intercepto específico individual puede estar correlacionado con una 
o más regresoras. Una desventaja del modelo MCVD es que consume muchos grados de 
libertad cuando el número de unidades de corte transversal, N, es muy grande, en cuyo caso 
se tendrán que introducir N variables dicótomas (pero habrá que suprimir el término del 
intercepto común). 

6. Una alternativa al MEF es el MCE. En este último, se supone que el intercepto de una unidad 
individual se extrae de manera aleatoria de una población mucho más grande con un valor 
medio constante. Así, el intercepto individual se expresa como una desviación respecto de este 
valor medio constante. Una ventaja del MCE respecto del MEF consiste en la economía de los 
grados de libertad, en vista de que no se tiene que calcular N interceptos de corte transversal. 
Sólo se requiere estimar el valor medio del intercepto y su varianza. El MCE es adecuado para 
situaciones en las que el intercepto (aleatorio) de cada unidad de corte transversal no está co- 
rrelacionado con las regresoras. Otra ventaja del MCE es que se pueden introducir variables, 
como género, religión y origen étnico, que se mantienen constantes en cualquier sujeto dado. 
En el MEF no podemos hacer eso, porque todas esas variables son colineales con el intercepto 
específico del sujeto. Además, si usamos el estimador dentro de grupos o el estimador de pri- 
meras diferencias, se borrará por completo toda esa invariabilidad con el tiempo. 

7. Con la prueba de Hausman se decide entre el MEF y el MCE. También se puede aplicar la 
prueba de Breusch-Pagan para ver si el MCE es apropiado. 

8. A pesar de su creciente popularidad en la investigación aplicada, y no obstante la creciente 
disponibilidad de esos datos, las regresiones con datos de panel tal vez no sean adecuadas 
para todas las situaciones. Se tiene que echar mano de un criterio práctico en cada caso. 

9. Existen algunos problemas específicos con los datos de panel que deben tenerse presentes. El 
más grave es el problema de desgaste, en el que, por una razón u otra, los sujetos del panel 
se retiran a medida que pasa el tiempo, de modo que en las encuestas subsiguientes (o de 
corte transversal) hay menos sujetos originales en el panel. Aunque no haya desgaste, con el 
transcurso del tiempo los sujetos pueden negarse o no estar dispuestos a responder algunas 
preguntas. 


EJERCICIOS Preguntas 


16.1. ¿Cuáles son las características especiales de a) los datos de corte transversal, b) las series 
de tiempo y c) los datos de panel? 

16.2. ¿Qué se quiere dar a entender con modelo de efectos fijos (MEF)? Como los datos de 
panel presentan las dos dimensiones de tiempo y espacio, ¿cómo es que el MEF permite 
ambas dimensiones? 

16.3. ¿Qué se quiere dar a entender con modelo con componentes del error (MCE)? ¿En qué 
difiere del MEF? ¿Cuándo resulta apropiado el MCE, y cuándo el MEF? 

16.4. ¿Hay diferencia entre los modelos de mínimos cuadrados con variables dicótomas 
(MCVD), estimados dentro de grupos y primeras diferencias? 

16.5. ¿Cuándo resultan inapropiados los modelos de regresión con datos de panel? Proporcione 
ejemplos. 

16.6. ¿Cómo ampliaría el modelo (16.4.2) para incluir un componente del error en el tiempo? 
Escriba el modelo explícitamente. 
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16.7. Consulte el ejemplo de los huevos y sus precios de la tabla 1.1. ¿Qué modelo resultaría 
apropiado en este caso, el MEF o el MCE? ¿Por qué? 

16.8. Para los datos de inversión presentados en la tabla 1.2, ¿qué modelo debe elegirse, MEF 
o MEFA? ¿Por qué? 

16.9. Con base en el Michigan Income Dynamics Study (Estudio Michigan de dinámica del in- 
greso), Hausman trató de estimar un modelo para salarios, o ganancias, con una muestra 
de 629 egresados del nivel medio superior, a quienes se les dio un seguimiento durante 
seis años, lo cual dio como resultado un total de 3 774 observaciones. En este estudio, la 
variable dependiente fue el logaritmo del salario y las variables explicativas fueron edad 
(dividida en varios grupos de edad), desempleo en el año anterior, pobreza sanitaria en el 
año anterior, autoempleo, región de residencia (Sur = 1; 0 en otro caso), área de residen- 
cia (rural = 1; 0 en otro caso). Hausman utilizó el MEF y el MCE. Estos resultados se 
proporcionan en la tabla 16.15 (se dan los errores estándar entre paréntesis). 


TABLA 16.15 , Variable Efectos fijos Efectos aleatorios 
Ecuaciones de salarios 
(variable dependiente: 1. Edad 1 (20-35) 0.0557 (0.0042) 0.0393 (0.0033) 
log salario) 2. Edad 2 (35-45) 0.0351 (0.0051) 0.0092 (0.0036) 
3. Edad 3 (45-55) 0.0209 (0.0055) —0.0007 (0.0042) 
o pa 4. Edad 4 (55-65) 0.0209 (0.0078) —0.0097 (0.0060) 
siao, NALYSIS O, ane. ata, 
: eE 5. Edad 5 (65- ) —0.0171 (0.0155) —0.0423 (0.0121) 
Cambridge Univ Press, A 
1986.p. 42. Fuente original. 3. a. 6. Desempleo en el año anterior —0.0042 (0.0153) -0.0277 (0.0151) 
Hausman, “Specification Tests in 7. Pobreza sanitaria en el año anterior —0.0204 (0.0221) —0.0250 (0.0215) 
Econometrics”, Econometrica, 8. Autoempleo —0.2190 (0.0297) —0.2670 (0.0263) 
A EN E 9. Sur —0.1569 (0.0656) —0.0324 (0.0333) 
10. Rural —0.0101 (0.0317) —0.1215 (0.0237) 
11. Constante —— 0.8499 (0.0433) 
se 0.0567 0.0694 
Grados de libertad 3135 3763 


a) ¿Los resultados tienen sentido económico? 

b) ¿Existe una gran diferencia en los resultados producidos por los dos modelos? Si así 
fuera, ¿qué explicaría tales diferencias? 

c) Con base en los datos de la tabla, ¿qué modelo, si acaso existiera uno, elegiría? 


Ejercicios empíricos 
16.10. Consulte el ejemplo de las aerolíneas analizado en el texto. En lugar del modelo lineal 
presentado en la ecuación (16.4.2), estime un modelo de regresión log-lineal y compare 
los resultados que se proporcionan en la tabla 16.2 
16.11. Consulte los datos de la tabla 1.1. 
a) Sea Y = huevos producidos (en millones) y X= precio de los huevos (centavos por 
docena). Calcule el modelo para los años 1990 y 1991 por separado. 
b) Agrupe las observaciones para los dos años y estime la regresión agrupada. ¿Qué 
suposiciones hace al agrupar los datos? 
c) Utilice el modelo de efectos fijos con la distinción entre los dos años y presente los 
resultados de la regresión. 
d) ¿Puede utilizar el modelo de efectos fijos si hace la distinción de los 50 estados? ¿Por 
qué? 
e) ¿Tiene sentido distinguir el efecto por estado y el efecto por año? De ser así, ¿cuántas 
variables dicótomas tendría que introducir? 


TABLA 16.16 

Tasa de desempleo y 
salario por hora en el 
sector manufacturero, 
en Estados Unidos, 
Canadá y Reino Unido, 
1980-2006. 


Fuente: Economic Report of the 
President, enero de 2008, tabla 
B-109. 


16.12. 


16.13. 


16.14. 
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f) ¿El modelo de componentes del error sería apropiado como modelo para la produc- 
ción de huevos? ¿Por qué? Vea si puede estimar dicho modelo con EViews, por ejem- 
plo. 

Continúe con el ejercicio 16.11. Antes de decidir hacer la regresión agrupada, quizá desee 

averiguar si los datos son “agrupables”. Para este propósito, se decide por la prueba de 

Chow analizada en el capítulo 8. Muestre los cálculos necesarios y determine si la regre- 

sión agrupada tiene sentido. 

Use los datos de inversión de la tabla 1.6. 

a) Estime la función de inversión Grunfeld para cada empresa de manera individual. 

b) Ahora agrupe los datos de todas las empresas y estime la función de inversión Grun- 

feld por MCO. 

Estime la función de inversión con MCVD y compare los resultados con la regresión 

agrupada que estimó en b). 


E 


== 


d 


— 


¿Cómo decidiría entre la regresión agrupada y la regresión de MCVD? Realice los 
cálculos necesarios. 


La tabla 16.16 suministra datos sobre la tasa de desempleo civil Y (%) y los salarios por 
hora del sector manufacturero en dólares estadounidenses X (índice, 1992 = 100) para 
Canadá, Reino Unido y Estados Unidos de 1980 a 2006. Considere el modelo: 


l= Bi =F b2Xit + Uit (1) 


Año 

1980 
1981 
1982 
1983 
1984 
1985 
1986 
1987 
1988 
1989 


1990 
1991 
1992 
1993 


1994 
1995 
1996 
1997 
1998 
1999 
2000 
2001 
2002 
2003 
2004 
2005 
2006 


Sal_EUA | Desemp_EUA Sal CAN Desemp_CAN Sal RU Desemp_RU 


55.9 7.1 49.0 7.3 47.1 6.9 
61.6 7.6 53.8 7.3 47.5 9.7 
67.2 97 60.1 10.7 45.1 10.8 
69.3 9.6 64.3 11.6 41.9 11.5 
71.6 7.5 65.0 10.9 39.8 11.8 
75.3 7.2 65.0 10.2 42.3 11.4 
78.8 7.0 64.9 9.3 52.0 11.4 
81.3 6.2 69.6 8.4 64.5 10.5 
84.1 5.5 78.5 7.4 74.8 8.6 
86.6 5.3 85.5 7.1 73.5 7.3 
5.6 
90.5 92.4 7.7 89.6 7.1 
95.6 6.8 100.7 9.8 99.9 8.9 
100.0 7.5 100.0 10.6 100.0 10.0 
102.0 6.9 94.8 10.8 88.8 10.4 
6.1 
105.3 92.1 9.6 92.8 8.7 
107.3 5.6 93.9 8.6 97.3 8.7 
109.3 5.4 95.9 8.8 96.0 8.1 
112.2 4.9 96.7 8.4 104.1 7.0 
118.7 4.5 94.9 7.7 113.8 6.3 
123.4 4.2 96.8 7.0 117.5 6.0 
134.7 4.0 100.0 6.1 114.8 5.5 
137.8 4.7 98.9 6.5 114.7 5.1 
147.8 5.8 101.0 7.0 126.8 5.2 
158.2 6.0 116.7 6.9 145.2 5.0 
161.5 5.5 127.1 6.4 171.4 4.8 
168.3 5.1 141.8 6.0 177.4 4.8 
172.4 4.6 155.5 5.5 192.3 5.5 


Notas: Desemp = Tasa de desempleo %. Sal = Índice de salarios por hora en dólares estadounidenses, 1992-100. CAN = Canadá. 
RU = Reino Unido. 
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16.15. 


16.16. 


16.17. 


a) A priori, ¿cuál es la relación esperada entre Y y X? ¿Por qué? 

b) Calcule el modelo dado en (1) para cada país. 

c) Estime el modelo agrupando las 81 observaciones en su totalidad. 
d) Calcule el modelo de efectos fijos. 

e) Estime el modelo de componentes del error. 


f) ¿Cuál es el mejor modelo, el MEF o el MCE? Justifique la respuesta. (Sugerencia: 
Aplique la prueba de Hausman.) 


Baltagi y Griffin consideraron la siguiente función de demanda de gasolina:* 
In Y;; = Br + 21n Xais + B3 ln Xi, + Ba ln X4it + tir 


donde Y = consumo de gasolina por automóvil; X, = ingreso real per cápita, X3 = precio 

real de la gasolina, X4 = número de automóviles per cápita, i = clave del país, en los 

18 países miembros de la OCDE, y t = tiempo (observaciones anuales de 1960 a 1978). 

Nota: Los valores de la tabla ya muestran el rezago correspondiente. 

a) Estime la función de demanda anterior agrupando los datos de los 18 países miem- 
bros (un total de 342 observaciones). 


b) Estime el modelo de efectos fijos con los mismos datos. 
c) Estime el modelo de componentes aleatorios con los mismos datos. 


d) Con base en este análisis, ¿qué modelo describe mejor la demanda de gasolina en los 
18 países de la OCDE? Justifique su respuesta. 


El artículo de Subhayu Bandyopadhyay y Howard J. Wall “The Determinants of Aid in the 
Post-Cold War Era”, Review, Federal Reserve Bank of St. Louis, noviembre-diciembre de 
2007, vol. 89, número 6, pp. 533-547, estima, con datos de panel, la capacidad de ayuda 
a las necesidades económicas y físicas de los países beneficiarios, los derechos civiles y 
políticos, y la eficacia del gobierno. Los datos corresponden a 135 países y abarcan tres 
años. El artículo y los datos se encuentran en: http://research.stlouisfed.org/publications/ 
review/past/2007 en la sección núm 10, vol. 89, noviembre y diciembre. Los datos tam- 
bién se encuentran en el sitio web de este libro, en la tabla 16.18. Estime el modelo de 
los autores (presentado en la página 534 del artículo) mediante un estimador de efectos 
aleatorios. Compare los resultados con los de los estimadores de efectos agrupados y 
fijos proporcionados por los autores en la tabla 2 de su artículo. ¿Qué modelo es apro- 
piado en este caso, el de efectos fijos o el de efectos aleatorios? ¿Por qué? 


Consulte el ejemplo de las aerolíneas analizado en el texto. Para cada aerolínea, estime 
una función de costo logarítmica de series de tiempo. ¿Cómo se comparan estas regre- 
siones con los modelos de efectos fijos y efectos aleatorios estudiados en el capítulo? 
¿También puede estimar 15 funciones logarítmicas de costo de corte transversal ? ¿Por 
qué? 


* B.H. Baltagi y J.M. Griffin, “Gasoline Demand in the OECD: An Application of Pooling and Testing Pro- 
cedures”, European Economic Review, vol. 22, 1983, pp. 117-137. Los datos de los 18 países de la OCDE 
correspondientes a los años 1960-1978 se encuentran en http://www.wiley.com/legacy/wileychi/baltagi/ 
supp/Gasoline.dat, o en el sitio web de este texto, tabla 16.17. 


Capítulo l i ) 


Modelos econométricos 
dinámicos: modelos 


autorregresivos y de 
rezagos distribuidos 


En el análisis de regresión con datos de series de tiempo, cuando el modelo de regresión incluye 
no sólo valores actuales sino además valores rezagados (pasados) de las variables explicativas 
(las X), se denomina modelo de rezagos distribuidos. Si el modelo incluye uno o más valores 
rezagados de la variable dependiente entre sus variables explicativas, se denomina modelo au- 
torregresivo. Así, 


Y, =0 + oX: + BrXi1 + B2X1-2 + u 
representa un modelo de rezagos distribuidos, mientras que 
Y, =a + X: + yY- +u 


es un ejemplo de modelo autorregresivo. Estos últimos también se conocen como modelos diná- 
micos, pues señalan la trayectoria en el tiempo de la variable dependiente en relación con su(s) 
valor(es) pasado(s). 

Los modelos autorregresivos y de rezagos distribuidos son muy comunes en el análisis econo- 
métrico, y en este capítulo los estudiaremos en detalle con el objeto de averiguar lo siguiente: 


1. ¿Cuál es el papel de los rezagos en economía? 

2. ¿Con qué razones se justifican los rezagos? 

3. ¿Existe alguna justificación teórica para los modelos rezagados comunes en la econometria 
empírica? 

4. ¿Cuál es la relación, si acaso, entre los modelos autorregresivos y los modelos de rezagos 
distribuidos? ¿Pueden derivarse unos de otros? 


5. ¿Cuáles son algunos problemas estadísticos relacionados con la estimación de tales mode- 
los? 

6. ¿La relación adelantada-rezagada entre variables implica causalidad? De ser así, ¿cómo se 
mide? 
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17.1 El papel del “tiempo” o “rezago” en economía 


En economía, la dependencia de una variable Y (la variable dependiente) respecto de otra u otras 
variables X (las variables explicativas) pocas veces es instantánea. Con frecuencia Y responde a X 
en un lapso, el cual se denomina rezago. Para ilustrar la naturaleza del rezago, aquí consideramos 
diversos ejemplos. 


EJEMPLO 17.1 Suponga que una persona recibe un incremento salarial de $2 000 en su pago anual y que se 
trata de un incremento “permanente” en el sentido de que se mantiene el incremento en el sa- 
lario. ¿Cuál será el efecto de este incremento en el ingreso sobre su gasto de consumo anual? 
Después del aumento en el ingreso, la gente no se apura a gastarse todo el incremento de 
inmediato. Así, el beneficiario de este ejemplo puede decidir aumentar su gasto de consumo 
$800 durante el primer año después del incremento en el ingreso, $600 en el siguiente año y 
otros $400 un año después, para ahorrar el resto. A finales del tercer año, el gasto de consumo 
anual de la persona habrá aumentado $1 800. Entonces la función de consumo se escribe 


La función consumo 


Y, = constante + 0.4 X+ + 0.3 Xt-1 + 0.2X+_2 + Ue (17.1.1) 


donde Y es el gasto de consumo y X es el ingreso. 

La ecuación (17.1.1) muestra que el efecto de un incremento de $2 000 en el ingreso se pro- 
paga, o distribuye, durante un periodo de tres años. Por consiguiente, modelos como (17.1.1) se 
denominan modelos de rezagos distribuidos, porque el efecto de una causa dada (el ingreso) 
se propaga durante varios periodos. En términos geométricos, el modelo de rezagos distribuidos 
(17.1.1) se muestra en la figura 17.1, o, alternativamente, en la figura 17.2. 


FIGURA 17.1 
Ejemplo de rezagos 
distribuidos. $400 
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FIGURA 17.2 


Efecto de un cambio 
unitario en X sobre Y en 
el tiempo ź y sobre los 
periodos subsiguientes. 


J Tiempo 
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En forma más general, escribiríamos 
Y, =0 + BoA, + BX 1 + b2Xi-2 +-+ + bkXi-k + ur (17.1.2) 


que es el modelo de rezagos distribuidos con un rezago finito de k periodos. El coeficiente By se 
conoce como multiplicador de corto plazo o de impacto porque da el cambio en el valor medio 
de Y que sigue a un cambio unitario en X en el mismo periodo.' Si el cambio en X se mantiene 
igual desde el principio, entonces (Bo + $1) da el cambio en (el valor medio de) Y en el periodo 
siguiente (Bo + 61 + £2) en el que le sigue, y así sucesivamente. Estas sumas parciales se deno- 
minan multiplicadores ínterin, o intermedios. Por último, después de k periodos obtenemos 


=> 


Y bi = bo + bi + btt b= B (17.1.3) 


i=0 


que se conoce como multiplicador de rezagos distribuidos de largo plazo o total, siempre que 
exista la suma £ (explicaremos esto más adelante). 
Si definimos 


rad al (17.1.4) 


¡CNB P 


obtenemos f; “estandarizado”. Las sumas parciales del $; estandarizado dan la proporción del 
impacto de largo plazo, o total, sentido durante cierto periodo. 

De vuelta a la regresión de consumo (17.1.1), vemos que el multiplicador de corto plazo, que 
no es otra cosa que la propensión marginal a consumir de corto plazo (PMC), es 0.4, mientras 
que el multiplicador de largo plazo, que es la propensión marginal a consumir de largo plazo, es 
0.4 + 0.3 + 0.2 = 0.9. Es decir, después de un incremento de $1 en el ingreso, el consumidor 
aumentará su nivel de consumo alrededor de 40 centavos de dólar en el año del aumento, otros 
30 centavos en el año siguiente y otros 20 centavos más en el siguiente. El impacto de largo plazo 
de un incremento de $1 en el ingreso es, entonces, de 90 centavos. Si dividimos cada £; entre 0.9, 
obtenemos 0.44, 0.33 y 0.23, respectivamente, lo cual indica que 44% del impacto total de un 
cambio unitario en X sobre Y se siente de inmediato, 77% se siente después de un año, y 100%, 
al finalizar el segundo año. 


B 


EJEMPLO 17.2 
Creación de dinero 
bancario (depósitos 
a la vista) 


Suponga que el Sistema de la Reserva Federal emite $1 000 de dinero nuevo, el cual entrega al 
sistema bancario mediante la compra de títulos del gobierno. ¿Cuál será la cantidad total del 
dinero bancario, o depósitos a la vista, que se generarán en último término? 

En el contexto del sistema de reservas fraccionales, si suponemos que la ley exige a los bancos 
retener 20% de las reservas para respaldar los depósitos que ellos crean, entonces, mediante 
el conocido proceso multiplicador, el total de los depósitos a la vista que se generarán será 
$1 000[1/(1 — 0.8)] = $5 000. Por supuesto, $5 000 en depósitos a la vista no se crean de la 
noche a la mañana. El proceso toma tiempo, como se ve esquemáticamente en la figura 17.3. 


(continúa) 


1 Técnicamente, fo es la derivada parcial de Y respecto de X;, $1 respecto de X;_1, B2 respecto de X;_2, y así 
sucesivamente. Simbólicamente, 9Y,/dX+_x = Br. 
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EJEMPLO 17.2 
(continuación) 


FIGURA 17.3 Expansión acumulativa en depósitos bancarios (reserva inicial de $1 000 y 
requerimientos de encaje de 20%). 


—=——| $5 000 


= $4 000 


$3 000 


$2 000 


$1 000 


Inicial íl 2 3 4 5 6 7 Final 
$1 000 Etapas en expansión 


EJEMPLO 17.3 
Vinculo entre dinero 
y precios 


De acuerdo con los monetaristas, la inflación es, en esencia, un fenómeno monetario en el 
sentido de que un incremento continuo en el nivel general de precios se debe a la tasa de ex- 
pansión en la oferta monetaria que excede en mayor medida la cantidad de dinero realmente 
demandada por las unidades económicas. Por supuesto, este vínculo entre inflación y cambios 
en la oferta monetaria no es instantáneo. Algunos estudios demuestran que el rezago entre las 
dos está en alguna parte entre 3 y alrededor de 20 trimestres. Los resultados de uno de estos 
estudios se presentan en la tabla 17.1,? donde se ve que el efecto de un cambio de 1% en la 
oferta monetaria M1B (= dinero circulante + depósitos a la vista en las instituciones financieras) 
se siente durante un periodo de 20 trimestres. El impacto de largo plazo de un cambio de 1% 
en la oferta monetaria sobre la inflación es de alrededor de 1 (= > m)), estadísticamente signifi- 
cativo, mientras que el impacto de corto plazo es de alrededor de 0.04, no significativo, aunque 
los multiplicadores intermedios por lo general parecen significativos. A propósito, observe que, 
como P y M se expresan en forma porcentual, las m; ($; en nuestra notación) dan la elasticidad 
de P respecto de M, es decir, la respuesta porcentual de los precios a un incremento de 1% en 
la oferta monetaria. Así, my = 0.041 significa que para un incremento de 1% en la oferta mo- 
netaria, la elasticidad de corto plazo de los precios es de alrededor de 0.04%. La elasticidad de 
largo plazo es 1.03%, lo cual implica que, en el largo plazo, un incremento de 1% en la oferta 
monetaria se refleja en apenas alrededor del mismo incremento porcentual en los precios. En 
resumen, un incremento de 1% en la oferta monetaria se acompaña en el largo plazo por un 
incremento de 1% en la tasa de inflación. 


2 Keith M. Carlson, “The Lag from Money to Prices”, Review, Federal Reserve Bank of St. Louis, octubre de 
1980, tabla 1, p. 4. 


EJEMPLO 17.3 
(continuación) 
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TABLA 17.1 Estimación de la ecuación dinero-precios: especificación original 
Periodo muestral: 1955-l a 1969-IV: m2; = 0 
; W 
P = —0.146 + ` m¡M_; 
i= 
(0.395) 
Coef. jt] Coef. lt] Coef. jé] 

Mo 0.041 1.276 mg 0.048 3.249 mes 0.069 3.943 
m 0.034 1.538 mg 0.054 3.783 m7 0.062 3.712 
m2 0.030 1.903 mo 0.059 4.305 Mg 0.053 3.511 
m3 0.029 2.171 mı 0.065 4.673 mo 0.039 3.338 
Ma 0.030 2.235 m2 0.069 4.795 m2 0.022 3.191 
ms 0.033 2.294 m3 0.072 4.694 ym 1.031 7.870 
M6 0.037 2.475 Ma 0.073 4.468 Rezago medio 10.959 5.634 
m7 0.042 2.798 ms 0.072 4.202 
R? 0.525 ee 1.066 D.W. 2.00 


Notación: P = tasa de cambio anual compuesta del deflactor del PNB. 


M = tasa de cambio anual compuesta de M1B. 


Fuente: Keith M. Carlson, “The Lag from Money to Prices”, Review, Federal Reserve Bank of St. Louis, octubre de 1980, tabla 1, p. 4. 


EJEMPLO 17.4 
Rezagos entre el 
gasto en lyD y 
productividad 


La decisión de invertir en gastos de investigación y desarrollo (lyD) y su compensación definitiva 
en términos de mayor productividad implica un considerable rezago, en realidad formado por 
diversos rezagos, como “el rezago entre la inversión de los fondos y el momento en el cual los 
inventos realmente empiezan a aparecer, el rezago entre la invención de una idea o mecanismo 
y su desarrollo hasta llegar a la etapa en que sea comercialmente aplicable y el rezago que se 
introduce en razón del proceso de difusión: se requiere tiempo para reemplazar las máquinas 


viejas por nuevas y mejores”.3 


EJEMPLO 17.5 
La curva J de la 


economía interna- 


cional 


FIGURA 17.4 


La curva J. 


Fuente: Paul R. Krugman y 


Maurice Obstfeld, International 
Economics: Theory and Prac- 


tice, 3a. ed., Harper Collins, 
Nueva York, 1994, p. 465. 


Los estudiantes de economía internacional conocen ya la curva J, la cual muestra la relación entre 
el balance comercial y la depreciación de la moneda. Al dar seguimiento a la depreciación de la 
moneda de un país (por ejemplo, a causa de una devaluación), al principio la balanza comercial 
se deteriora, pero a la larga mejora, si lo demás se mantiene igual. La curva se muestra en la 
figura 17.4. 


Cuenta corriente 
(en unidades del producto interno) 


Efecto de largo 
plazo de la 
depreciación 
real en la cuenta 
corriente r 3 
2 
Tiempo 
Ocurre la depreciación Fin de la 
real y comienza la curva J curva J 


3 Zvi Griliches, “Distributed Lags: A Survey”, Econometrica, vol. 36, núm. 1, enero de 1967, pp. 16-49. 
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EJEMPLO 17.6 
El modelo acelera- 
dor de la inversión 


En su forma más sencilla, el principio de aceleración de la teoría de la inversión establece que la 
inversión es proporcional a los cambios en la producción. De manera simbólica, 


le=ß(Xt— X1) B>0 (17.1.5) 


donde 4 es la inversión en el tiempo t, X; es la producción en el tiempo t y X:-:1 es la producción 
en el tiempo (t — 1). 


17.2 Razones de los rezagos 


Los ejemplos anteriores son una muestra de los rezagos en economía. Sin duda, el lector 
puede dar diversos ejemplos con base en su propia experiencia. 


4 


Aunque los ejemplos de la sección 17.1 señalan la naturaleza de los fenómenos rezagados, no 
explican por completo la razón por la cual ocurren. Hay tres razones principales: 


1. Razones psicológicas. Como resultado de la fuerza del hábito (inercia), la gente no cambia 


sus hábitos de consumo de inmediato tras una reducción de precios o de un incremento en el 
ingreso, quizá debido a que el proceso de cambio conlleve alguna desventaja inmediata. Así, 
quienes de pronto se convierten en millonarios al ganar la lotería quizá no cambien el estilo 
de vida al cual estaban acostumbrados durante largo tiempo por no saber cómo reaccionar a 
una ganancia repentina como ésa. Por supuesto, después de un tiempo razonable, aprenden 
a vivir con su recién adquirida fortuna. Asimismo, la gente puede no saber si un cambio es 
“permanente” o “transitorio”. Así, su reacción a un incremento en su ingreso depende de que 
el incremento sea permanente o no. Si sólo es un incremento que no se repite y en los periodos 
siguientes su ingreso retorna al nivel anterior, quizá ahorre la totalidad del incremento, mien- 
tras que otra persona en su posición puede decidir “disfrutarlo”. 


. Razones tecnológicas. Suponga que se reduce el precio del capital relativo al trabajo, de 


modo que es económicamente factible sustituir mano de obra por capital. Desde luego, la 
adición de capital toma tiempo (periodo de gestación). Además, si se espera que la caída de 
precios sea temporal, las empresas pueden no apurarse a sustituir mano de obra por capital, 
en especial si esperan que luego de la caida temporal el precio del capital tal vez aumente 
más allá de su nivel anterior. Algunas veces, el conocimiento imperfecto también explica los 
rezagos. En este momento, el mercado de computadoras personales está lleno de toda clase de 
computadoras con diversas características y precios. Además, desde su introducción, a finales 
de la década de los años setenta, los precios de la mayoria de las computadoras personales se 
han reducido en forma drástica. Como resultado, los posibles consumidores de computadoras 
personales pueden dudar en comprar hasta que hayan tenido tiempo de revisar las caracterís- 
ticas y los precios de todas las marcas. Además, pueden dudar en comprar ante la expectativa 
de mayores descensos de precio o de más innovaciones. 


. Razones institucionales. Estas razones también contribuyen a los rezagos. Por ejemplo, las 


obligaciones contractuales pueden impedir que las empresas cambien de una fuente de trabajo 
o de materias primas a otra. Por ejemplo, quienes colocaron fondos en cuentas de ahorro de 
largo plazo con término fijo, como uno, tres o siete años, están “atrapados”, aunque las condi- 
ciones del mercado de dinero ahora permitan rendimientos más altos en otras partes. En forma 
similar, los empleadores con frecuencia permiten a sus empleados escoger entre diversos pla- 
nes de seguro de salud, pero sólo se hace una selección, y un empleado no puede cambiarse a 
otro plan durante al menos un año. Aunque esto puede representar una conveniencia adminis- 
trativa, el empleado queda comprometido durante un año. 


4 Esta sección se basa en buena medida en Marc Nerlove, “Distributed Lags and Demand Analysis for Agri- 
cultural and Other Commodities”, Agricultural Handbook, núm. 141, Departamento de Agricultura de Esta- 
dos Unidos, junio de 1958. 
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Por estas razones, el rezago desempeña un papel central en economía. Esto se refleja en la 
metodología económica del corto y largo plazos. Por esta razón se dice que las elasticidades 
precio-ingreso de corto plazo suelen ser menores (en valores absolutos) que las elasticidades 
correspondientes de largo plazo, o que la propensión marginal a consumir de corto plazo es por 
lo general menor que la propensión marginal a consumir de largo plazo. 


17.3 Estimación de modelos de rezagos distribuidos 


Ya establecimos que los modelos de rezagos distribuidos desempeñan un papel muy útil en eco- 
nomía, pero ¿cómo se estiman dichos modelos? Suponga que tenemos el siguiente modelo de 
rezagos distribuidos en una variable explicativa:? 


Y, = æ + oX: + BX1 1 + BX, ++: +04, (17.3.1) 


donde no hemos definido la longitud del rezago, es decir, cuán atrás en el pasado deseamos ir. 
Tal modelo se denomina modelo de rezagos infinito, mientras que un modelo del tipo (17.1.2) 
se denomina modelo de rezagos distribuidos (rezagos) finito porque la longitud del rezago k 
está especificada. Continuaremos con (17.3.1) por su facilidad de manejo matemático, como 
veremos. 

¿Cómo estimamos « y las $ de (17.3.1)? Podemos adoptar dos enfoques: 1) estimación ad 
hoc y 2) restricciones a priori sobre las $, si suponemos que (las 8) siguen un patrón sistemático. 


Consideraremos la estimación ad hoc en esta sección, y el otro enfoque, en la sección 17.4. 


Estimación ad hoc de los modelos de rezagos distribuidos 


Como se supone que la variable explicativa X, es no estocástica (o por lo menos no correlacio- 
nada con el término de perturbación u,), igualmente son no estocásticas X,_¡, X;—2, y así sucesi- 
vamente. Por consiguiente, en principio, es aplicable el método de mínimos cuadrados ordinarios 
(MCO) a (17.3.1). Éste es el enfoque de Alt” y Tinbergen,’ quienes sugieren que para estimar 
(17.3.1) se proceda secuencialmente, es decir, primero la regresión Y, sobre X, luego la de Y, 
sobre X, y X,_¡, después la regresión de Y, sobre X,, X,_1 y X,_2, y así sucesivamente. Este pro- 
cedimiento secuencial se detiene cuando los coeficientes de regresión de las variables rezagadas 
empiezan a ser estadísticamente insignificantes y/o el coeficiente de por lo menos una variable 
cambia su signo de positivo a negativo, o viceversa. Según este precepto, Alt efectuó la regresión 
de Y, consumo de gasolina, sobre nuevos pedidos X. Con base en información trimestral de 1930 
a 1939, los resultados fueron los siguientes: 


Y, =8.37+0.171X, 

Y, =8.27+0.111X, +0.064X,_¡ 

Y, = 8.27 +0.109X, + 0.071X,_¡ — 0.055X,_2 

Y, = 8.32 +0.108X, + 0.063X,_¡ + 0.022X,_2 — 0.020X,_3 


5 Si hay más de una variable explicativa en el modelo, cada variable puede tener un efecto rezagado sobre Y. 
Por simplicidad, sólo suponemos una variable explicativa. 


é En la práctica, sin embargo, se espera que los coeficientes de los valores distantes de X tengan un efecto 
insignificante sobre Y. 


7 ER Alt, “Distributed Lags”, Econometrica, vol. 10, 1942, pp. 113-128. 
8J. Tinbergen, “Long-Term Foreign Trade Elasticities”, Metroeconomica, vol. 1, 1949, pp. 174-185. 
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Alt escogió la segunda regresión como la “mejor” porque en las últimas dos ecuaciones el signo 
de X,_, no fue estable y en la última ecuación el signo de X,_3 fue negativo, lo cual es difícil 
interpretar en términos económicos. 

Aunque la estimación ad hoc parece sencilla y discreta, plantea muchas desventajas, como 
las siguientes: 


1. No hay guía a priori sobre la longitud máxima que debe tener el rezago.” 


2. A medida que se estiman rezagos sucesivos, quedan menos grados de libertad, con lo cual se 
debilita un poco la inferencia estadística. Por lo general, los economistas no tienen la suerte 
de contar con series largas que les permitan estimar numerosos rezagos. 


3. Aún más importante, en la información de series de tiempo económicas, los valores (de reza- 
gos) sucesivos tienden a estar altamente correlacionados; por tanto, sale a relucir la multico- 
linealidad. Como mencionamos en el capítulo 10, la multicolinealidad genera una estimación 
imprecisa; es decir, los errores estándar tienden a ser grandes en relación con los coeficientes 
estimados. Como resultado, con base en el cálculo rutinario de las razones t, podemos tender 
a declarar (erróneamente) que uno o varios coeficientes de los rezagos son estadísticamente 
no significativos. 


4. La búsqueda secuencial de la longitud de los rezagos hace que el investigador pueda incurrir 
en la minería de datos. También, como vimos en la sección 13.4, el nivel de significancia 
nominal y verdadero para probar hipótesis estadísticas se convierte en un asunto importante 
en tales búsquedas secuenciales [véase la ecuación (13.4.2)]. 


En vista de estos problemas, no es muy recomendable el procedimiento de estimación ad 
hoc. Sin duda, deben tenerse en cuenta algunas consideraciones previas o teóricas para tratar las 
diversas $ si deseamos resolver el problema de estimación. 


17.4 Método de Koyck para los modelos de rezagos distribuidos 


Koyck propuso un método ingenioso de estimación de los modelos de rezagos distribuidos. Su- 
ponga que empezamos con un modelo de rezagos distribuidos infinito (17.3.1). Si todas las B 
tienen el mismo signo, Koyck da por hecho que se reducen geométricamente de la siguiente 


manera. !? 


AS (17.4.1)" 


donde A, tal que 0 < à < 1, se conoce como tasa de descenso, o de caída, del rezago distribuido 
y donde 1 — A se conoce como velocidad de ajuste. 

Lo que se postula en (17.4.1) es que cada coeficiente $ sucesivo es numéricamente inferior 
a cada £ anterior (esta afirmación se debe a que à < 1), lo cual implica que, a medida que se 
retorna al pasado distante, el efecto de ese rezago sobre Y, se reduce progresivamente, supuesto 
muy razonable. Después de todo, se espera que los ingresos actuales y del pasado reciente afecten 
al gasto de consumo actual con mayor peso que el ingreso en el pasado distante. En la figura 17.5 
se ilustra geométricamente el esquema de Koyck. 

Como muestra esta figura, el valor del coeficiente del rezago 84 depende, aparte del By común, 
del valor de à. Entre más cerca de 1 esté A, más lenta será la tasa de descenso en 6p, mientras que, 


? Si la longitud del rezago, k, está especificada incorrectamente, tendremos que enfrentar el problema de 
errores de especificación analizado en el capítulo 13. Tenga en mente también la advertencia sobre la mine- 
ría de datos. 


10 L.M. Koyck, Distributed Lags and Investment Analysis, North Holland, Ámsterdam, 1954. 
11 Algunas veces esto se escribe también como 

Bk = Bo(1 — ayar k=0,1,... 
por las razones dadas en la nota 12. 


FIGURA 17.5 
Esquema de Koyck 
(distribución geométrica 
descendente). 
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Br 


Rezago (tiempo) 


entre más cerca esté de cero, más rápido será el descenso en z. En el primer caso, los valores 
del pasado distante de X ejercerán un impacto considerable sobre Y, mientras que en el último 
caso, su influencia sobre Y, desaparecerá con rapidez. Este patrón se ve claramente en la siguiente 
ilustración: 


A Bo B1 B2 B3 Ba Bs pis Bio 


0.75 Bo 0.7580 0.568 0.4289 0.328 0.2480 --- 0.0680 
0.25 Bo 0.258 0.068 0.028 0.0048 0.0018 --- 0.0 


Observe estas características del esquema de Koyck: 1) Al suponer valores no negativos para 
à, Koyck elimina la posibilidad de que las $ cambien de signo; 2) al suponer que A < 1, le da un 
menor peso a las £ en el pasado distante que a las actuales; y 3) asegura que la suma de las £, que 
proporciona el multiplicador de largo plazo, sea finita, a saber, 


ce 1 
Y Br =Bo (=) (17.4.2)? 
k=0 


Como resultado de (17.4.1), el modelo de rezagos infinitos (17.3.1) se escribe como 
Y, = æ + BoX, + Boà X1 + Boà? X,- +- +u (17.4.3) 


Como está planteado, el modelo aún no es adecuado para su fácil estimación, pues un gran nú- 
mero (literalmente infinito) de parámetros quedan aún por estimar y el parámetro A ingresa de 


12 Esto se debe a que 
2,13 1 
PA= potat 0) = Bo | 
porque la expresión en paréntesis en el lado derecho es una serie geométrica infinita cuya suma es 


1/(1 — A) siempre y cuando O < à < 1. A propósito, observe que si By se define como en la nota 11, 
Y Bk = Bo (1 — W/(1 — A) = fo, con lo que se asegura que las ponderaciones (1 — AJAX sumen uno. 
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forma por completo no lineal: en sentido estricto, el método de análisis de regresión lineal (en 
parámetros) no puede aplicarse a un modelo de este tipo. Pero ahora Koyck sugiere una forma 
ingeniosa para lograrlo. Rezaga (17.4.3) en un periodo para obtener 


Y, 1 =0+ BoX 1 + Boà X,-2 + Bon Xi 3 + + ur (17.4.4) 


Luego multiplica (17.4.4) por A para obtener 


AY, 1 =0 + AboXi-1 + boà? Xi-2 + BoA Xi 3 +++ Auri (17.4.5) 


Al restar (17.4.5) de (17.4.3), obtiene 


Y, — AY, =0(1—A)+ B0X, + (u, — Au,-1) (17.4.6) 


o, al reordenar, 


e (17.4.7) 


donde v, = (ur — Àu — 1) es un promedio móvil de u; y 4,1. 


El procedimiento recién descrito se conoce como transformación de Koyek. Al comparar 


(17.4.7) con (17.3.1), vemos la enorme simplificación que logró Koyck. Mientras que antes era 
preciso estimar o: y un número infinito de £, ahora sólo hay que estimar tres incógnitas: œ, o y A. 
Ahora bien, no hay razón para esperar multicolinealidad. En cierto sentido, la multicolinealidad 
se resuelve al reemplazar X,_¡, X;_2, . . . , por una variable única, a saber, Y, ¡. Pero observe las 
siguientes características de la transformación de Koyck: 


1. 


Empezamos con un modelo de rezagos distribuidos y terminamos con un modelo autorregre- 
sivo porque Y,_¡ aparece como una variable explicativa. Esta transformación muestra la forma 
como un modelo de rezagos distribuidos se “convierte” en un modelo autorregresivo. 


. Es probable que la aparición de Y,_¡ cree algunos problemas estadísticos. Y,—1, al igual que 


Y, es estocástica, lo cual significa que tenemos una variable explicativa estocástica en el mo- 
delo. Recuerde que la teoría clásica de mínimos cuadrados se basa en el supuesto de que las 
variables explicativas son no estocásticas o, en caso de serlo, están distribuidas independiente- 
mente del término de perturbación estocástico. Por tanto, debemos averiguar si Y,_¡ satisface 
este supuesto. (Volveremos a este punto en la sección 17.8.) 


. En el modelo original (17.3.1), el término de perturbación era u,, mientras que en el modelo 


transformado es v; = (ur — Au,_1). Las propiedades estadísticas de v; dependen de lo que se 
suponga sobre las propiedades estadísticas de u,, pues, como veremos más adelante, si las u 
originales no están serialmente correlacionadas, las v, están serialmente correlacionadas. Por 
consiguiente, tal vez enfrentemos el problema de correlación serial adicional a la variable 
explicativa estocástica Y, _¡. Haremos esto en la sección 17.8. 


. La presencia de la Y rezagada viola un supuesto en que se basa la prueba d de Durbin-Watson. 


Por consiguiente, debemos desarrollar una prueba alterna para verificar la correlación serial 
en presencia de una Y rezagada. Una alternativa es la prueba h de Durbin, que analizamos en 
la sección 17.10. 


Como vimos en (17.1.4), las sumas parciales de las 6; estandarizadas reflejan la proporción 


del impacto de largo plazo, o total, sentido durante un cierto periodo. En la práctica, sin embargo, 
con el rezago medio o mediano a menudo se caracteriza la naturaleza de la estructura de los 
rezagos de un modelo de rezagos distribuidos. 


Capítulo 17 Modelos econométricos dinámicos: modelos autorregresivos y de rezagos distribuidos 627 


Mediana de los rezagos 

La mediana de los rezagos es el tiempo requerido para la primera mitad, o 50%, del cambio 
total ocurrido en Y como consecuencia de un cambio unitario sostenido en X. Para el modelo de 
Koyck, la mediana de los rezagos es la siguiente (véase el ejercicio 17.6): 


log 2 
log A 


Modelo de Koyck: Mediana de los rezagos = — (17.4.8) 


Así, si A = 0.2, la mediana de rezagos es 0.4306, pero si à = 0.8, la mediana de rezagos es 
3.1067. En palabras, en el primer caso, 50% del cambio total en Y se logra en menos de la mitad 
de un periodo, mientras que en el último caso, requiere más de 3 periodos para alcanzar el cam- 
bio de 50%. Pero este contraste no debe sorprender, pues, como sabemos, entre más alto sea 
el valor de à menor será la velocidad del ajuste, y entre menor sea el valor de à mayor será la 
velocidad del ajuste. 


Rezago medio 
En tanto todas las 6+ sean positivas, el rezago medio o promedio se define como 


E 

Rezago medio = EH (17.4.9) 

Do Br 

que es tan sólo el promedio ponderado de todos los rezagos participantes, con los respectivos co- 
eficientes $ como ponderaciones. En resumen, es un promedio ponderado rezagado de tiempo. 
Para el modelo de Koyck, el rezago medio es (véase el ejercicio 17.7) 


A 
Modelo de Koyck: Rezago medio = T7 (17.4.10) 


Así, si À = Ł, el rezago medio es 1. 

De la exposición anterior, es claro que la mediana y la media de los rezagos sirven como me- 
dida resumen de la velocidad con la cual Y responde a X. En el ejemplo de la tabla 17.1, el rezago 
medio es alrededor de 11 trimestres, lo que indica que se requiere algún tiempo, en promedio, 


para que el efecto de los cambios en la oferta monetaria se sienta en los cambios de precios. 


EJEMPLO 17.7 
Gasto de consumo 
personal per cápita 
(GCPC) e ingreso 
disponible personal 
per cápita (IDPC) 


Este ejemplo analiza el gasto de consumo personal per cápita (GCPC) en relación con el ingreso 
disponible personal per cápita (IDPC) en Estados Unidos de 1959 a 2006; todos los datos están 
en dólares de 2000. Como ilustración del modelo Koyck, considere los datos de la tabla 17.2. 
La regresión del GCPC sobre el IDPC y el GCPC rezagado arrojó los resultados que se presentan 
en la tabla 17.3. 

La función de consumo en esta tabla se denomina función de consumo de corto plazo. En 
breve derivaremos la función de consumo de largo plazo. 

Con el valor estimado de 4 calculamos los coeficientes de los rezagos distribuidos. Si 80 ~ 
0.2139, 6ı = (0.21391(0.7971) ~ 0.1704, 2 = (0.2139)(0.7971)? ~ 0.0231, y así sucesiva- 
mente, que son multiplicadores de corto y mediano plazos. Por último, con la ecuación (17.4.2) 
obtenemos el multiplicador de largo plazo, es decir, el efecto total del cambio del ingreso sobre 
el consumo después de tomar en cuenta todos los efectos rezagados, que en el presente ejem- 
plo es: 


na, 
0 


1 
(continúa) 
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EJEMPLO 17.7 TABLA 17.2 GCPC e IDPC, 1959-2006 
(continuación) Año GCPC IDPC Año GCPC IDPC 
1959 8776 9 685 1983 15 656 17 828 
1960 8 873 9 735 1984 16 343 19 011 
1961 8 873 9 901 1985 17 040 19 476 
1962 9 170 10 227 1986 17 570 19 906 
1963 9 412 10 455 1987 17 994 20 072 
1964 9 839 11 061 1988 18 554 20 740 
1965 10 331 11 594 1989 18 898 21 120 
1966 10 793 12 065 1990 19 067 21 281 
1967 10 994 12 457 1991 18 848 21 109 
1968 11 510 12 892 1992 19 208 21 548 
1969 11 820 13 163 1993 19 593 21 493 
1970 11 955 13 563 1994 20 082 21 812 
1971 12 256 14 001 1995 20 382 22153 
1972 12 868 14 512 1996 20 835 22 546 
1973 13 371 15 345 1997 21 365 23 065 
1974 13 148 15 094 1998 22 183 24 131 
1975 13 320 15 291 1999 23 050 24 564 
1976 13 919 15 738 2000 23 860 25 469 
1977 14 364 16 128 2001 24 205 25 687 
1978 14 837 16 704 2002 24 612 26 217 
1979 15 030 16 931 2003 25 043 26 535 
1980 14816 16 940 2004 25711 27 232 
1981 14 879 17 217 2005 26 277 27 436 
1982 14 944 17 418 2006 26 828 28 005 


Notas: GCPC = gasto de consumo personal per cápita, en dólares de 2000, ajustados por la inflación. 
IDPC = ingreso disponible per cápita, en dólares de 2000, ajustados por la inflación. 


Fuente: Economic Report of the President, 2007, tabla B-31. 


TABLA 17.3 


Variable dependiente: GCPC 

Método: Mínimos cuadrados 

Muestra (ajustada): 1960-2006 

Observaciones incluidas: 47 después de los ajustes 


Coeficiente Error estándar Estadístico t Prob. 
G -252.9190 157 Sai y -1.607348 0. LL 
GEES 0.213890 0.070617 3.028892 0.0041 
TDRC) 0.797146 0.073308 10.87389 0.0000 
R cuadrada 0.998216 Media de la variable dependiente 16691.28 
R cuadrada ajustada 0.998134 Desviación estándar de la 
Error estándar de la regresión 224.8504 variable dependiente 52057879 
Suma de cuadrados residual 2224539. Criterio de información de Akaike 13.73045 
Log verosimilitud -319.6656 Criterio de Schwarz 13.84854 
Estadístico F 12306.99 Criterio de Hannan-Quinn 13.77489 
Prob. (estadístico F) 0.000000 Estadístico Durbin-Watson 0. ILLIA 


Durbin h = 3.8269* 


*Explicamos el cálculo h de Durbin en la sección 17.10. 
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EJEMPLO 17.7 En palabras, un incremento sostenido de un dólar en el IDPC producirá al final alrededor de 
1.05 dólares de aumento en el GCPC, pero el impacto inmediato, o de corto plazo, es de sólo 
21 centavos de dólar. 

La función de consumo de largo plazo se expresa así: 


GCPC; = —1 247.1351 + 1.0537IDPC; 


(continuación) 


Esto se obtiene al dividir la función de consumo de corto plazo presentada en la tabla 17.3 entre 
0.2029 en ambos lados y eliminar el término de IDPC rezagado. !? 

En el largo plazo, la propensión marginal a consumir (PMC) es alrededor de 1. Esto significa 
que cuando los consumidores tienen tiempo de adaptarse al incremento de un dólar en el IDPC, 
aumentan el GCPC casi un dólar. En el corto plazo, sin embargo, como muestra la tabla 17.3, 
la PMC es de sólo 21 centavos. ¿Cuál es la razón de la diferencia entre la PMC de corto y largo 


plazos? 
La respuesta se encuentra en los rezagos mediano y medio. Con à = 0.7971, el rezago me- 
diano es: 
log(2) log(2) 
= = 3.0589 
logA log(0.7971) 
y el rezago medio es: 
as 
1-1 


Al parecer, el GCPC real se ajusta al IDPC con un rezago considerable: recuerde que cuanto 
mayor sea el valor de à (entre O y 1), más tiempo tardará en sentirse el impacto pleno de un 
cambio en el valor de la variable explicativa en la variable dependiente. 


17.5 Racionalización del modelo de Koyck: 
modelo de expectativas adaptativas 


Aunque es muy claro, el modelo de Koyck (17.4.7) es ad hoc, pues se obtuvo mediante un pro- 
ceso puramente algebraico; está desprovisto de cualquier soporte teórico. Pero esta falla se com- 
pensa si empezamos desde otra perspectiva. Suponga que postulamos el siguiente modelo: 


Y, = bo + BLA? + u: (17.5.1) 


donde Y = demanda de dinero (balances reales de efectivo) 
X* = tasa de interés normal o esperada de largo plazo o de equilibrio, u óptima 
u = término de error 


La ecuación (17.5.1) postula que la demanda de dinero es función de la tasa de interés esperada 
(es decir, anticipada). 

Como la variable de expectativas X* no es directamente observable, podemos proponer la 
siguiente hipótesis sobre la manera de conformar las expectativas: 


X= XA = Y 04 A1) (1 7.5.2)" 


13 En equilibrio, todos los valores de GCPC serán iguales. Por tanto, GCPC; = GCPC;_1. Con esta sustitución 
se obtiene la función de consumo de largo plazo. 


14 Algunas veces el modelo se expresa como 
XE = Xi = 1 (Ata = M1) 
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donde y, tal que 0 < y < 1, se conoce como coeficiente de expectativas. La hipótesis (17.5.2) se 
conoce como hipótesis de expectativas adaptativas, expectativas progresivas o de aprendizaje 
por error, popularizada por Cagan!? y Friedman.'* 

Lo que implica (17.5.2) es que los “agentes económicos adaptarán sus expectativas a la luz de 
la experiencia pasada y que, en particular, aprenderán de sus errores”.!” De modo más específico, 
(17.5.2) establece que las expectativas se corrigen cada periodo por una fracción y de la brecha 
entre el valor actual de la variable y su valor esperado anterior. Así, para el modelo esto signi- 
ficaría que las expectativas sobre tasas de interés son corregidas cada periodo por una fracción 
y de la discrepancia entre la tasa de interés observada en el periodo actual y lo que fue su valor 
anticipado en el periodo anterior. Otra forma de plantear esto sería escribir (17.5.2) como 


X =y% +0- y) (17.5.3) 


lo cual muestra que el valor esperado de la tasa de interés en el tiempo f es un promedio ponde- 
rado del valor actual de la tasa de interés en el tiempo ź y su valor esperado en el periodo anterior, 
con ponderaciones de y y 1 — y, respectivamente. Si, y = 1, X¥ = X, lo cual significa que las 
expectativas se cumplen de inmediato y en forma completa, es decir, en el mismo periodo. Si, 
por otra parte, y = 0, X¥ = XF_;, lo que significa que las expectativas son estáticas, es decir, “las 
condiciones que prevalecen hoy se mantendrán en todos los periodos subsecuentes. Los valores 
futuros esperados se identifican entonces con los valores actuales”. !8 


Al sustituir (17.5.3) en (17.5.1), obtenemos 


Y, = bo + Bily Xi + (—y)47_1] + u 
= po + Biy Xı + Bil — y) X} + u 


(17.5.4) 


Ahora rezague (17.5.1) un periodo, multiplíquelo por 1 — y y reste el producto de (17.5.4). Tras 
un reordenamiento algebraico sencillo, obtenemos 


Y, =yB0+ yB14%:+(— y) 1 +, (1 — y)us-1 
= YBo0 + YyB1X,+ (1 = y)Y-1 + v, 


(17.5.5) 


donde v; = ur — (1 — y)u,_1. 

Antes de continuar, es preciso advertir sobre la diferencia entre (17.5.1) y (17.5.5). En la 
primera, fı mide la respuesta promedio de Y ante un cambio unitario en X*, el valor de equili- 
brio o de largo plazo de X. En (17.5.5), por otra parte, yßı mide la respuesta promedio de Y ante 
un cambio unitario en el valor actual u observado de X. Estas respuestas no serán las mismas a 
menos, por supuesto, que y = 1, es decir, que los valores actuales y de largo plazo de X sean los 
mismos. En la práctica, primero estimamos (17.5.5). Una vez obtenida una estimación de y a 
partir del coeficiente de la Y rezagada, podemos calcular $, con facilidad, al dividir el coeficiente 
de X.(= y61) entre y. 


15 P, Cagan, “The Monetary Dynamics of Hyperinflations”, en M. Friedman (ed.), Studies in the Quantity 
Theory of Money, University of Chicago Press, Chicago, 1956. 


16 Milton Friedman, A Theory of the Consumption Function, National Bureau of Economic Research, Princeton 
University Press, Princeton, Nueva Jersey, 1957. 


17 G.K. Shaw, Rational Expectations: An Elementary Exposition, St. Martin's Press, Nueva York, 1984, p. 25. 
18 Ibid., pp. 19-20. 
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La similitud entre el modelo de expectativas adaptativas (17.5.5) y el modelo de Koyck 
(17.4.7) debe verse fácilmente aunque las interpretaciones de los coeficientes en los dos modelos 
son diferentes. Observe que, como el modelo de Koyck, el de expectativas adaptativas es autorre- 
gresivo, y su término de error es similar al término de error de Koyck. Volveremos a la estimación 
del modelo de expectativas adaptativas en la sección 17.8, y daremos algunos ejemplos en la 
sección 17.12. Ahora que delineamos el modelo de expectativas adaptativas (EA), ¿es realista? 
Es cierto que es más atractivo que el enfoque de Koyck puramente algebraico, pero, ¿es razonable 
la hipótesis EA? En favor de la hipótesis EA podemos decir lo siguiente: 


Proporciona un medio relativamente simple de diseñar modelos de expectativas en la teoría eco- 
nómica mientras que, a la vez, postula una forma de comportamiento por parte de los agentes 
económicos que parece eminentemente razonable. La creencia de que la gente aprende de la ex- 
periencia es, desde luego, un punto de partida más razonable que el supuesto implícito de que está 
totalmente desprovista de memoria, característica de la tesis de expectativas estáticas. Además, la 
afirmación de que las experiencias más distantes ejercen un efecto menor que las experiencias más 
recientes coincide con el sentido común y parece bien confirmada por la simple observación.'” 


Hasta la llegada de la hipótesis de expectativas racionales (ER), planteada primero por J. 
Muth y difundida después por Robert Lucas y Thomas Sargent, la hipótesis EA fue muy popular 
en la economía empírica. Los proponentes de la hipótesis de ER sostienen que la hipótesis de EA 
es inadecuada porque la formulación de expectativas se basa tan sólo en los valores pasados de 
una variable,” mientras que la hipótesis de ER supone “que los agentes económicos individuales 
utilizan información actual disponible y relevante en la formación de sus expectativas y no se 
apoyan únicamente en la experiencia pasada”.?! En resumen, la hipótesis de ER sostiene que “las 
expectativas son “racionales” en el sentido de que incorporan con eficiencia toda la información 
disponible en el momento en que se formulan las expectativas”? y no sólo la información pa- 
sada. 

La crítica dirigida por los proponentes de las ER en contra de la hipótesis de EA es bien reci- 
bida, aunque hay muchas críticas a la propia hipótesis de ER. Aquí no es el lugar para dejarse 
enredar con este material reciente. Se puede o no estar de acuerdo con Stephen McNees en que, 
“en el mejor de los casos, el supuesto de las expectativas adaptativas puede defenderse sólo como 
una “hipótesis de trabajo” o aproximación a un mecanismo de formación de expectativas más 


complejo, quizá cambiante”.?* 


EJEMPLO 17.8 
Ejemplo 17.7 
reconsiderado 


Como el modelo de expectativas adaptativas se basa en la transformación de Koyck, los resul- 
tados de la tabla 17.3 también se interpretan en términos de la ecuación (17.5.5). Por con- 
siguiente, ? fo = -252.9190; $ $1 = 0.21389 y (1 — P) = 0.797146. Así, el coeficiente de 
expectativas y ~ 0.2028 y, según el análisis anterior sobre el modelo de EA, podemos decir que 
alrededor de 20% de la discrepancia entre el IDPC real y el esperado se elimina en el transcurso 
de un año. 


19 Ibid., p. 27. 


20 Al igual que el modelo de Koyck, puede demostrarse que, según EA, las expectativas de una variable son 
un promedio ponderado exponencialmente de valores pasados de dicha variable. 


21 G.K. Shaw, op. cit., p. 47. Para detalles adicionales de la hipótesis de ER, véase Steven M. Sheffrin, Rational 
Expectations, Cambridge University Press, Nueva York, 1983. 


22 Stephen K. McNees, “The Phillips Curve: Forward- or Backward-Looking?”, New England Economic Review, 
julio-agosto de 1979, p. 50. 


23 Hay una evaluación crítica reciente de la hipótesis de ER en Michael C. Lovell, “Test of the Rational Expec- 
tations Hypothesis”, American Economic Review, marzo de 1966, pp. 110-124. 


24 Stephen K. McNees, op. cit., p. 50. 
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17.6 Otra racionalización del modelo de Koyck: 


el modelo de ajuste de existencias o de ajuste parcial 


El modelo de expectativas adaptativas es una forma de racionalizar el modelo de Koyck. Otra ra- 
cionalización es la de Marc Nerlove con el modelo de ajuste de existencias o de ajuste parcial 
(MAP).?* Para ilustrar este modelo, considere el modelo de acelerador flexible de la teoría eco- 
nómica, que supone un nivel de reservas o existencias de capital de equilibrio, óptimo, deseado, o 
de largo plazo requerido para generar una producción dada en ciertas condiciones de tecnología, 
tasa de interés, etc. Por simplicidad, suponga que este nivel de capital deseado Y* es una función 
lineal de la producción X de la siguiente manera: 


Y? = po + fiX: + u; (17.6.1) 


Como el nivel deseado de capital no es directamente observable, Nerlove postula la siguiente 
hipótesis, conocida como hipótesis de ajuste parcial o ajuste de existencias: 


Y, — Y, = (Y7 — Y-1) (17.6.2) 


donde ô, tal que 0 < ô < 1, se conoce como coeficiente de ajuste y donde Y, — Y,—ı = cambio 
real, y (Y* — Y,_¡) cambio deseado. 

Como Y, — Y, ¡, el cambio en las existencias de capital entre dos periodos, no es otra cosa que 
la inversión (17.6.2) se escribe también como 


I =8(Y* — Y,_1) (17.6.3) 


donde /, = inversión en el periodo t. 

La ecuación (17.6.2) postula que el cambio real en las existencias de capital (la inversión) en 
cualquier momento del tiempo ź es alguna fracción ô del cambio deseado durante ese periodo. Si 
$ = 1, significa que las reservas de capital real son iguales a las deseadas; es decir, las reservas 
reales se ajustan al instante (durante el mismo periodo) a las deseadas. Sin embargo, si ô = 0, 
significa que nada cambia, pues las existencias reales en el tiempo £ son las mismas que las 
observadas en el periodo anterior. De hecho, se espera que ô se encuentre dentro de estos extre- 
mos, pues es probable que el ajuste a las existencias deseadas de capital sea incompleto debido 
a rigideces, inercia, obligaciones contractuales, etc., de aquí el nombre de modelo de ajuste 
parcial. Observe que el mecanismo de ajuste (17.6.2) también se escribe como 


Y, = 8Y* + (1 — 81 (17.6.4) 


lo cual muestra que las existencias de capital observadas en el tiempo £ son un promedio pon- 
derado de las existencias de capital deseado en ese momento y de las existencias de capital 
observadas en el periodo anterior, con 3 y (1 — $) como ponderaciones. Ahora, la sustitución de 
(7.6.1) en (17.6.4) da 


Y, = (Bo + PiX; + us) + (1 — 8)Y,-1 
=6B0 + 681X, + (1 — OPi i + ôu; 


(17.6.5) 


25 Marc Nerlove, Distributed Lags and Demand Analysis for Agricultural and Other Commodities, op. cit. 

26 Algunos autores no agregan el término estocástico de error u a la relación (17.6.1) pero lo añaden a esta 
relación, en la creencia de que si la primera es de verdad una relación de equilibrio, el término de error no 
tiene fundamento, mientras que el mecanismo de ajuste puede ser imperfecto y requerir el término de per- 
turbación. A propósito, observe que (17.6.2) se escribe algunas veces también como 


Ye — Yer =8(Y 1 — Ye-1) 
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FIGURA 17.6 
Ajuste gradual de las exis- y* 
tencias de capital 
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Este modelo se denomina modelo de ajuste parcial (MAP). 

Como (17.6.1) representa la demanda de reservas de capital de largo plazo o de equilibrio, 
(17.6.5) puede denominarse la función de demanda de reservas de capital de corto plazo, pues, en 
el corto plazo las reservas de capital existentes pueden no ser necesariamente iguales a su nivel 
en el largo plazo. Una vez estimada la función de corto plazo (17.6.5) y con la estimación del 
coeficiente de ajuste ô (del coeficiente de Y,_¡), se deriva fácilmente la función de largo plazo 
tan sólo al dividir $89 y $8, entre $ y omitir el término rezagado de Y, lo cual dará entonces 
(7.6.1). 

En la figura 17.6 presentamos, en términos geométricos el modelo de ajuste parcial.“ En esta 
figura, Y* son las existencias deseadas de capital y Y, las existencias reales de capital del periodo 
en curso. Para fines ilustrativos suponga que $ = 0.5. Esto implica que la empresa planea cerrar la 
mitad de la brecha entre las existencias de capital reales y deseadas cada periodo; así, en el primer 
periodo, se mueve a Y,, con una inversión igual a (Y, — Yı) que, a su vez, es igual a la mitad de 
(Y* — Yı). En cada periodo subsiguiente, ésta cierra la mitad de la brecha entre las existencias 
de capital a principios del periodo y las existencias deseadas de capital Y*. 

El modelo de ajuste parcial se parece a los modelos de Koyck y de expectativas adaptativas 
en que es autorregresivo. Sin embargo, tiene un término de perturbación mucho más sencillo: el 
término de perturbación original u; multiplicado por una constante ô. Pero tenga en mente que, si 
bien son similares en apariencia, los modelos de expectativas adaptativas y de ajuste parcial son 
muy diferentes conceptualmente. El primero se basa en la incertidumbre (sobre el curso futuro 
de los precios, las tasas de interés, etc.), mientras que el último se debe a rigideces técnicas o 
institucionales, a la inercia, al costo del cambio, etc. Sin embargo, en teoría ambos modelos son 
mucho más sólidos que el modelo de Koyck. 

Como en apariencia los modelos de expectativas adaptativas y de ajuste parcial son indistin- 
guibles, el coeficiente y de 0.2028 del modelo de expectativas adaptativas también se interpreta 
como coeficiente ô del modelo de ajuste de existencias si suponemos que el último modelo es 
operativo en el presente caso (es decir, es el GCPC deseado o esperado el que está relacionado 
linealmente con el IDPC actual). 

El punto importante es que el modelo de Koyck, el de expectativas adaptativas y el de ajuste 
de existencias —aparte de la diferencia en la apariencia del término de error— al final producen 
el mismo modelo estimado; así, los investigadores deben tener gran cuidado al decir al lector qué 
modelo utilizan y por qué. Por tanto, los investigadores deben especificar el soporte teórico de 
sus modelos. 


1.7 


27 Adaptado de la figura 7.4 de Rudiger Dornbusch y Stanley Fischer, Macroeconomics, 3a. ed., McGraw-Hill, 
Nueva York, 1984, p. 216. 
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*17.7 Combinación de los modelos de expectativas adaptativas 


y de ajuste parcial 


Considere el siguiente modelo: 


Yi = bo + BLA + u: 


(17.7.1) 


donde Y“ = existencias de capital deseadas y A? = nivel de producción esperado. 

Como ni Y* ni X* son directamente observables, podemos utilizar el mecanismo de ajuste par- 
cial para Y* y el modelo de expectativas adaptativas para A a fin de llegar a la siguiente ecuación 
de estimación (véase el ejercicio 17.2): 


Y, = Body + Piôy Xı + [0 — y) + (1 — ô)]Y,— 
E O a (17.7.2) 
= 0) +01X, + 09Y, 1 + 03Y,2 +, 


donde v; = ô [u, — (1 — y)u,_1]. Este modelo es también autorregresivo y la única diferencia res- 
pecto del modelo de expectativas puramente adaptativas consiste en que Y,_, aparece junto con 
Y, | como variable explicativa. Al igual que los modelos de Koyck y de EA, el término de error 
en (17.7.2) sigue un proceso de promedios móviles. Otra característica de este modelo es que, 
aunque el modelo es lineal en las a, no es lineal en los parámetros originales. 

Una aplicación conocida de (17.7.1) es la hipótesis del ingreso permanente de Friedman, que 
plantea que el consumo “permanente” o de largo plazo es una función del ingreso “permanente” 
o de largo plazo.?* 

La estimación de (17.7.2) presenta los mismos problemas de estimación que el modelo de 
Koyck o que el modelo de EA, pues todos estos modelos son autorregresivos con estructuras 
similares de error. Además (17.7.2) implica algunos problemas de estimación no lineal que con- 
sideraremos brevemente en el ejercicio 17.10 pero no trataremos a fondo en este libro. 


17.8 Estimación de modelos autorregresivos 


Del análisis realizado hasta el momento tenemos los tres modelos siguientes: 


Koyck 


Y,=0(1 — à) + oX; +AY,1 +, (17.4.7) 
Expectativas adaptativas 
Y, = ypo + yBIX, + (U— YY. + [u — (1 — yu] (17.5.5) 
Ajuste parcial 
Y, =8B0+5881X, + (1 — 8)Y,_1 + ôu (17.6.5) 
* Opcional. 


28 Milton Friedman, A Theory of Consumption Function, Princeton University Press, Princeton, Nueva Jersey, 
1957. 
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Todos estos modelos tienen la forma común siguiente: 
Y, = do + 01X,+09Y, 1 + v; (17.8.1) 


es decir, todos son autorregresivos por naturaleza. Por consiguiente, debemos ver ahora el pro- 
blema de estimación de dichos modelos, porque los mínimos cuadrados clásicos pueden no ser 
aplicables directamente a ellos. La razón es doble: la presencia de variables explicativas esto- 
cásticas y la posibilidad de correlación serial. 

Ahora, como ya mencionamos, para aplicar la teoría clásica de mínimos cuadrados debemos 
demostrar que la variable explicativa estocástica Y,_/ está distribuida independientemente del 
término de perturbación v;. Para determinar si esto es así, es esencial conocer las propiedades de 
vi. Si suponemos que el término de perturbación original u, satisface todos los supuestos clásicos, 
como E(u) = 0, var (u) = 0? (supuesto de homoscedasticidad) y COV (un Uts) = 0 paras Æ 0 
(supuesto de no autocorrelación), v; puede no heredar todas estas propiedades. Considere, por 
ejemplo, el término de error en el modelo de Koyck, v, = (us — 44,1). Con los supuestos sobre 
us, podemos demostrar fácilmente que v; está serialmente correlacionada porque 


E(vv,-1) = —20? (17.8.2)? 


que es diferente de cero (a menos de que à resulte cero). Y como Y,_¡ aparece en el modelo de 
Koyck como variable explicativa, está sujeta a estar correlacionada con v, (mediante la presencia 
de u1 en él). De hecho, podemos demostrar que 


cov [Y;—1, (ur — A45-1)] = —40? (17.8.3) 


que es lo mismo que (17.8.2). El lector puede verificar que sucede lo mismo respecto del modelo 
de expectativas adaptativas. 

¿Cuál es la implicación de encontrar que en el modelo de Koyck, al igual que en el modelo de 
expectativas adaptativas, la variable explicativa estocástica Y, está correlacionada con el tér- 
mino de error v,? Como ya vimos, si una variable explicativa en un modelo de regresión está 
correlacionada con el término de perturbación estocástico, los estimadores MCO no sólo 
están sesgados sino que, además, no son siquiera consistentes; es decir, aunque el tamaño 
de la muestra aumente indefinidamente, los estimadores no se aproximarán a sus valores 
poblacionales verdaderos.” Por consiguiente, la estimación de los modelos de Koyck y de 
expectativas adaptativas mediante el procedimiento usual de MCO puede producir resul- 
tados muy erróneos. 

Sin embargo, el modelo de ajuste parcial es diferente. En este modelo, v; = ôu donde 
0 << 1. Por consiguiente, si u, satisface los supuestos del modelo clásico de regresión lineal 
dados antes, igual lo hará $4, Por tanto, la estimación por MCO del modelo de ajuste par- 
cial dará estimaciones consistentes aunque las estimaciones tiendan a sesgarse (en muestras fini- 
tas o pequeñas).*' Por intuición, la razón de la consistencia es: aunque Y,_¡ depende de u,_¡ y de 


29 
E(vivi1) = E (Ut — àut-1)(Ut-1 — At 2) 
= AE (u1)? porque se supone que las covarianzas entre las u son cero 


= —ìo? 


30 La prueba trasciende el alcance de este libro y se encuentra en Griliches, op. cit., pp. 36-38. Sin embargo, 
véase en el capítulo 18 un esquema de la prueba en otro contexto. Véase también Asatoshi Maeshiro, 
“Teaching Regression with a Lagged Dependent Variable and Autocorrelated Disturbances”, The Journal of 
Economic Education, invierno de 1996, vol. 27, núm. 1, pp. 72-84. 

31 Hay una prueba en J. Johnston, Econometric Methods, 3a. ed., McGraw-Hill, Nueva York, 1984, pp. 360- 
362. Véase además H.E. Doran y J.W.B. Guise, Single Equation Methods in Econometrics: Applied Regression 
Analysis, University of New England Teaching Monograph Series 3, Armidale, Nueva Gales del Sur, Australia, 
1984, pp. 236-244. 
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todos los términos de perturbación anteriores, no está relacionada con el término de error actual 
us. Por consiguiente, siempre que u; sea serialmente independiente, Y, también será indepen- 
diente o por lo menos no estará correlacionada con u,, lo que satisface un supuesto importante de 
MCO, a saber, la no correlación entre la(s) variable(s) explicativa(s) y el término de perturbación 
estocástico. 

Aunque la estimación por MCO del modelo de ajuste de existencias, o parcial, proporciona 
una estimación consistente debido a la estructura simple del término de error en un modelo así, 
no debemos suponer que puede aplicarse en lugar del modelo de Koyck o de expectativas adap- 
tativas.? Se aconseja al lector no hacerlo. Un modelo debe seleccionarse con base en considera- 
ciones teóricas sólidas, no porque genere una estimación estadística sencilla. Todo modelo debe 
considerarse por sus propios méritos, con la debida atención a las perturbaciones estocásticas 
que aparecen en ellos. Si en modelos como el de Koyck o el de expectativas adaptativas no es 
posible aplicar directamente MCO, se deben diseñar métodos para resolver el problema de esti- 
mación. Existen otros métodos de estimación, aunque algunos son computacionalmente tediosos. 
En la siguiente sección veremos uno de estos métodos. 


17.9 Método de variables instrumentales (VI) 


La razón por la cual MCO no es aplicable al modelo de Koyck o de expectativas adaptativas es 
que la variable explicativa Y, ¡ tiende a estar correlacionada con el término de error v,. Si de 
alguna manera es posible eliminar esta correlación, se pueden aplicar MCO para obtener esti- 
maciones consistentes, como ya mencionamos. (Vota: Habrá algún sesgo de muestra pequeña.) 
¿Cómo se consigue esto? Liviatan propuso la siguiente solución.** 

Supongamos que encontramos una variable para representar Y, muy correlacionada con Y, 
pero no con v, donde v, es el término de error en el modelo de Koyck o en el de expectativas 
adaptativas. Tal representación se denomina variable instrumental (VD).** Liviatan sugiere X,_¡ 
como variable instrumental para Y,_¡ y además que los parámetros de la regresión (17.8.1) se 
obtengan al resolver las siguientes ecuaciones normales: 


5r, =n60 +01 ) X, +å) Yı 
Y YX =00 ) XX +01) X +Y YX, (17.9.1) 
X Y, X ıı = ĉo XY Xai F &ı XY XXi +â2 y Y,-1X4-1 


Observe que si aplicásemos MCO directamente a (17.8.1), las ecuaciones normales de MCO 
usuales serían (véase la sección 7.4) 


5r =nôo +â Y X +64) Y 
Y YX =â) X, +41) X +02) Y, 1X, (17.9.2) 


Y) YY = âo) Yi +â} XY +â) Yea 


La diferencia entre los dos conjuntos de ecuaciones normales debe verse fácilmente. Liviatan 
demostró que las «œ estimadas a partir de (17.9.1) son consistentes mientras que las estimadas de 


32 Asimismo, como menciona J. Johnston (op. cit., p. 350), “[el] patrón de ajuste [sugerido por el modelo de 
ajuste parcial]. .. algunas veces puede no ser razonable”. 


33 N. Liviatan, “Consistent Estimation of Distributed Lags”, International Econometric Review, vol. 4, enero de 
1963, pp. 44-52. 


34 Estas variables instrumentales son frecuentes en modelos de ecuaciones simultáneas (véase el capítulo 20). 
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(17.9.2) pueden no serlo porque Y,_¡ y v,[= u,— Au, 0u,— (1 — y)u,_1] pueden estar correla- 
cionadas, mientras que X, y X,_/ no están correlacionadas con v,. (¿Por qué?) 

Aunque en la práctica es fácil aplicarla una vez encontrada una variable representante apro- 
piada, es probable que la técnica de Liviatan presente el problema de multicolinealidad debido a 
que es factible que X, y X;—1, que forman parte de las ecuaciones normales de (17.9.1), estén muy 
correlacionadas (como mencionamos en el capítulo 12, es habitual que la mayoría de las series 
de tiempo económicas presenten un alto grado de correlación entre valores sucesivos). La impli- 
cación, entonces, es que, si bien el procedimiento de Liviatan genera estimaciones consistentes, 
es probable que los estimadores sean ineficientes.** 

Antes de continuar, la pregunta obvia es ¿cómo encontrar una “buena” variable representante 
para Y,_¡, de manera que, aunque esté muy correlacionada con Y, ¡, no lo esté con v? Hay algu- 
nas sugerencias en la bibliografía, que consideraremos aquí en forma de ejercicio (véase el ejerci- 
cio 17.5). Pero debe afirmarse que no siempre es fácil encontrar buenas variables representantes, 
en cuyo caso el método de VI es de poca utilidad práctica y puede ser necesario recurrir a las 
técnicas de estimación de máxima verosimilitud, que trascienden el alcance de este libro.*% 

¿Existe alguna prueba para averiguar si el (las) variable(s) instrumental(es) es (son) válida(s)? 
Dennis Sargan elaboró una prueba, la prueba SARG, con este propósito, que describimos en el 
apéndice 17A, sección 17A.1. 


17.10 Detección de autocorrelación en modelos autorregresivos: 
prueba h de Durbin 


Como vimos, la probable correlación serial en los errores v, complica un poco el problema de 
estimación en el modelo autorregresivo: en el modelo de ajuste de existencias, el término de error 
v, no tenía correlación serial (de primer orden) cuando el término de error u, en el modelo original 
no estaba serialmente correlacionado, mientras que en los modelos de Koyck y de expectativas 
adaptativas, v, estaba serialmente correlacionado aunque u, fuera serialmente independiente. La 
pregunta entonces es ¿cómo saber si hay correlación serial en el término de error que aparece en 
los modelos autorregresivos? 

Como vimos en el capítulo 12, el estadístico d de Durbin-Watson no sirve para detectar corre- 
lación serial (de primer orden) en modelos autorregresivos porque el valor d calculado en tales 
modelos por lo general tiende a 2, que es el valor de d esperado en una secuencia verdaderamente 
aleatoria. En otras palabras, si calculamos el estadístico d para tales modelos en la forma habi- 
tual, se forma un sesgo inherente que impide descubrir la correlación serial (de primer orden). 
A pesar de esto, muchos investigadores calculan el valor d por falta de algo mejor. Sin embargo, 
hace poco Durbin mismo propuso una prueba de muestras grandes para la correlación serial de 
primer orden en modelos autorregresivos.?” Esta prueba se llama estadístico A. 

Ya analizamos la prueba » de Durbin en el ejercicio 12.36. Por conveniencia, reproducimos el 
estadístico kh (con un ligero cambio en la notación): 


A n 
h= ô a (17.10.1) 


35 Para ver la forma de mejorar la eficiencia de los estimadores, consulte Lawrence R. Klien, A Textbook of 
Econometrics, 2a. ed., Prentice-Hall, Englewood Cliffs, Nueva Jersey, 1974, p. 99. Véase también William H. 
Greene, Econometric Analysis, Macmillan, 2a. ed., Nueva York, 1993, pp. 535-538. 

36 Hay un análisis condensado de los métodos de MV en J. Johnston, op. cit., pp. 366-371, al igual que en el 
apéndice 4A y el apéndice 15A. 

37 J. Durbin, “Testing for Serial Correlation in Least-Squares Regression When Some of the Regressors Are 
Lagged Dependent Variables”, Econometrica, vol. 38, 1970, pp. 410-421. 
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donde n = tamaño de la muestra, var(ĉ2) = varianza del coeficiente de la variable rezagada 
Y, (=Y,_1) en (17.8.1), y ô es la estimación de p, la correlación serial de primer orden analizada 
en el capítulo 12. 

Como mencionamos en el ejercicio 12,36, para una muestra grande, Durbin demostró que, 
según la hipótesis nula de que p = 0, el estadístico A de la ecuación (17.10.1) sigue la distribución 
normal estandarizada. Es decir, 


hasin 2 N(0, 1) (1 7.1 0.2) 


donde asin significa asintóticamente. 
En la práctica, como vimos en el capítulo 12, p se calcula de la siguiente manera: 
d 
p=1-== (17.10.3) 
2 
Es interesante observar que aunque la d de Durbin no sirve para probar la autocorrelación en los 
modelos autorregresivos, sí puede emplearse como dato para determinar el estadístico A. 
Nustraremos el uso del estadístico h con el ejemplo 17.7. En dicho ejemplo, n = 47, ô ~ (1 — 
d/2)= 0.5190 (Nota: d = 0.9619), y var(â2) = var(GCPC,_ 1) = (0.0733)? = 0.0053. Al sustituir 
esos valores en (17.10.1), obtenemos 


47 
tol —— = 4.1061 17.10.4 
á 1 — 47(0.0053) ( ) 


Como este valor h sigue una distribución normal estandarizada según la hipótesis nula, es muy 
pequeña la probabilidad de obtener un valor h tan alto. Recuerde que la probabilidad de que 
una variable normal estándar rebase el valor de +3 es muy reducida. Así, en este ejemplo, la 
conclusión es que hay autocorrelación (positiva). Por supuesto, es necesario tener presente que h 
sigue la distribución normal estandarizada asintóticamente. La muestra de 47 observaciones es 
razonablemente grande. 

Observe estas características del estadístico h: 


1. No importa cuántas variables X o cuántos valores rezagados de Y se incluyan en el modelo 
de regresión. Para calcular A debemos considerar sólo la varianza del coeficiente del rezago 
Y-i 

2. La prueba no es aplicable si [n var(â2)] es superior a 1. (¿Por qué?) En la práctica, sin em- 
bargo, no es usual que esto suceda. 

3. Como se trata de una prueba de muestras grandes, su aplicación en muestras pequeñas no 
se justifica del todo, como demuestran Inder’? y Kiviet.* Se ha sugerido que la prueba de 
Breusch-Godfrey (BG), también conocida como prueba del multiplicador de Lagrange, anali- 
zada en el capítulo 12, es estadísticamente más potente, no sólo en las muestras grandes, sino 
también en muestras finitas, o pequeñas, y, por consiguiente, es preferible a la prueba h.“ 


La conclusión basada en la prueba A que el modelo sufre de autocorrelación se confirma con la 
prueba de Breusch-Godfrey (BG), que se muestra en la ecuación (12.6.17). Con los siete valores 
rezagados de los residuos estimados de la regresión de la tabla 17.3, la prueba BG ilustrada en 


38 B, Inder, “An Approximation to the Null Distribution of the Durbin-Watson Statistic in Models Containing 

Lagged Dependent Variables”, Econometric Theory, vol. 2, núm. 3, 1986, pp. 413-428. 

39 J.F. Kiviet, “On the Vigour of Some Misspecification Tests for Modelling Dynamic Relationships”, Review of 
Economic Studies, vol. 53, núm. 173, 1986, pp. 241-262. 

40 Gabor Korosi, Laszlo Matyas e Istvan P. Szekely, Practical Econometrics, Ashgate, Brookfield, Vermont, 1992, 
p. 92. 
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TABLA 17.4 


Variable dependiente: GCP 

Método: Mínimos cuadrados 

Muestra (ajustada): 1960-2006 

Observaciones incluidas: 47 después de los ajustes 

Errores estándar CHA Newey-West y covarianza (truncamiento de rezago = 3) 


Coeficiente Error estándar Estadístico t Prob. 
€ -252 a LSO 168.4610 =I- 5011350 0.1404 
IDPC 0.213890 0.051245 4.173888 0.0000 
GCPC (-1) 0.797146 0051325 15.38148 0.0000 
R cuadrada 0.998216 Media de la variable dependiente 16691.28 
R cuadrada ajustada 0.998134 Desviación estándar de la 
Error estándar de la regresión 224.8504 variable dependiente 5205.873 
Suma de cuadrados residual 2224539. Criterio de información de Akaike 13.73045 
Log verosimilitud -319.6656 Criterio de Schwarz 13.84854 
Estadístico F 12306.99 Criterio de Hannan-Quinn 13.77489 
Prob. (estadístico F) 0.000000 Estadístico Durbin-Watson 0.961921 


la ecuación (12.6.18) obtuvo un valor x? de 15.3869. Para siete grados de libertad (el número de 
residuos rezagados en la prueba BG), la probabilidad de obtener un valor ji cuadrada de 15.38 o 
mayor es de aproximadamente 3%, que es muy baja. 

Por esta razón es necesario corregir los errores estándar que aparecen en la tabla 17.3, lo cual 
se efectúa con el procedimiento CHA de Newey-West, estudiado en el capítulo 12. Los resulta- 
dos se presentan en la tabla 17.4. 

Al parecer, MCO subestima los errores estándar de los coeficientes de regresión. 


17.11 Ejemplo numérico: demanda de dinero en Canadá 


de 1-1979 a IV-1988 


Para ilustrar la utilización de los modelos que hemos visto hasta este momento, tenga en cuenta 
una de las primeras aplicaciones empíricas, a saber, la demanda de dinero (o saldos reales de 
efectivo). En particular, considere el siguiente modelo:*! 


M* = BoR”! YP e" (17.11.1) 


donde M* = demanda de dinero (saldos reales de efectivo) deseada, o de largo plazo 
R, = tasa de interés a largo plazo, % 
Y, = ingreso nacional real agregado 


Para la estimación estadística (17.11.1) se expresa convenientemente en forma logarítmica 
como 


ln Mi = In o + 1 ln R; + b2 In Y, + u; (17.11.2) 


41 Para un modelo similar, véase Gregory C. Chow, “On the Long-Run and Short-Run Demand for Money”, 
Journal of Political Economy, vol. 74, núm. 2, 1966, pp. 111-131. Observe que una ventaja de la función 
multiplicativa es que los exponentes de las variables proporcionan estimaciones directas de las elasticidades 
(véase el capítulo 6). 
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Como la variable de demanda deseada no es observable directamente, suponga la hipótesis de 
ajuste de existencias, a saber, 


M, M: 
Mı 


ô 
= 0<8<1 17.11.3 
Z) = ( ) 


La ecuación (17.11.3) establece que un porcentaje constante (¿por qué?) de la discrepancia entre 
los saldos reales de efectivo observados y los deseados se elimina en un solo periodo (año). En 
forma logarítmica, la ecuación (17.11.3) se expresa como 


In M, — lIn M,_; = (ln Mi — In M,_;) (17.11.4) 
Al sustituir In M% de (17.11.2) en la ecuación (17.11.4) y reordenar, obtenemos 
In M, = ô ln fo + 618 1n R; + B25 1n Y, + (1 — 8) ln M,_¡ + Su, (17.11.53 


que puede denominarse la función de demanda de dinero de corto plazo. (¿Por qué?) 

Como una ilustración de la demanda de saldos reales de efectivo de corto y largo plazos, con- 
sidere los datos de la tabla 17.5. Tales datos trimestrales pertenecen a Canadá, de 1979 a 1988. 
Las variables se definen de la siguiente forma: M [como se definió por la oferta de dinero M1, en 
dólares canadienses (C$), millones], P (deflactor de precio implícito, 1981 = 100), PIB a precios 
constantes de 1981 (C$, millones) y R (tasa de interés corporativa preferencial a 90 días, %).* 
P tuvo un efecto de deflación sobre M1, a fin de tener las cifras de los saldos de efectivo reales. 
A priori, se espera que la demanda de dinero real tenga una relación positiva con el PIB (efecto 
de ingreso positivo) y una negativa con R (mientras mayor sea la tasa de interés, mayor será el 
costo de oportunidad de poseer dinero, en vista de que el dinero M1 paga muy poco interés, si 
llega a pagar alguno). 

Los resultados de la regresión fueron los siguientes:** 


nM, = 0.8561 — 0.0634lInR,— 0.0237 In PIB;+ 0.9607 In M,_¡ 


ee = (0.5101) (0.0131) (0.0366) (0.0414) 
t= (1.6782) (—4.8134) (—0.6466) (23.1972) 
R? =0.9482 d=2.4582 F =213.7234 (17.11.6) 


La función de demanda de corto plazo estimada muestra que la elasticidad del interés de corto 
plazo tiene el signo apropiado y que es estadísticamente muy significativa, debido a que su valor 
p es casi cero. Sorprendentemente, la elasticidad del ingreso de corto plazo resulta negativa, a 
pesar de que desde un punto de vista estadistico no es diferente de cero. El coeficiente de ajuste 
es ô = (1 — 0.9607) = 0.0393, lo cual implica que sólo cerca de 4% de la discrepancia entre el 
saldo de efectivo real y el deseado se elimina en un trimestre, un ajuste muy lento. 


2 A propósito, observe que este modelo es en esencia no lineal en los parámetros. Por consiguiente, aunque 
MCO puede generar una estimación insesgada de, por ejemplo, $18 tomado en conjunto, puede no dar es- 
timaciones insesgadas de £ y ô individualmente, sobre todo si la muestra es pequeña. 


43 Estos datos provienen de B. Bhaskar Rao (ed.), Cointegration for the Applied Economist, St. Martin's Press, 
Nueva York, 1994, pp. 210-213. Los datos originales abarcan del primer trimestre de 1956 al cuarto de 
1988, pero para propósitos de ejemplificación comenzamos el análisis desde el primer trimestre de 1979. 
44 Observe esta característica de los errores estándar estimados. El error estándar de, por ejemplo, el coefi- 
ciente del In R; se refiere al error estándar de $; 3, que es un estimador de £18. No existe una forma sencilla 
de obtener los errores estándar de $1 y 3 de manera individual, a partir del error estándar de $13, sobre 
todo si la muestra es relativamente pequeña. No obstante, para muestras grandes, los errores estándar 
individuales de $1 y ô se obtienen de manera aproximada, pero los cálculos resultan intrincados. Véase Jan 
Kmenta, Elements of Econometrics, Macmillan, Nueva York, 1971, p. 444. 
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TABLA 17.5 . , Observación M1 R P PIB 

Dinero, tasa de interés, 

indice de precios y PIB, 1979-1 22 175.00 11.13333 0.77947 334 800 

Canadá 1979-2 22 841.00 11.16667 0.80861 336 708 
1979-3 23 461.00 11.80000 0.82649 340 096 

Fuente: Rao, op. cit., pp. 210-213. 1979-4 23 427.00 14.18333 0.84863 341 844 
1980-1 23 811.00 14.38333 0.86693 342 776 
1980-2 23 612.33 12.98333 0.88950 342 264 
1980-3 24 543.00 10.71667 0.91553 340 716 
1980-4 25 638.66 14.53333 0.93743 347 780 
1981-1 25 316.00 17.13333 0.96523 354 836 
1981-2 25 501.33 18.56667 0.98774 359 352 
1981-3 25 382.33 21.01666 1.01314 356 152 
1981-4 24 753.00 16.61665 1.03410 353 636 
1982-1 25 094.33 15.35000 1.05743 349 568 
1982-2 25 253.66 16.04999 1.07748 345 284 
1982-3 24 936.66 14.31667 1.09666 343 028 
1982-4 25 553.00 10.88333 1.11641 340 292 
1983-1 26 755.33 9.616670 1.12303 346 072 
1983-2 27 412.00 9.316670 1.13395 353 860 
1983-3 28 403.33 9.333330 1.14721 359 544 
1983-4 28 402.33 9.550000 1.16059 362 304 
1984-1 28 715.66 10.08333 1.17117 368 280 
1984-2 28 996.33 11.45000 1.17406 376 768 
1984-3 28 479.33 12.45000 1.17795 381 016 
1984-4 28 669.00 10.76667 1.18438 385 396 
1985-1 29 018.66 10.51667 1.18990 390 240 
1985-2 29 398.66 9.666670 1.20625 391 580 
1985-3 30 203.66 9.033330 1.21492 396 384 
1985-4 31 059.33 9.016670 1.21805 405 308 
1986-1 30 745.33 11.03333 1.22408 405 680 
1986-2 30 477.66 8.733330 1.22856 408 116 
1986-3 31 563.66 8.466670 1.23916 409 160 
1986-4 32 800.66 8.400000 1.25368 409 616 
1987-1 33 958.33 7.250000 1.27117 416 484 
1987-2 35 795.66 8.300000 1.28429 422 916 
1987-3 35 878.66 9.300000 1.29599 429 980 
1987-4 36 336.00 8.700000 1.31001 436 264 
1988-1 36 480.33 8.616670 1.32325 440 592 
1988-2 37 108.66 9.133330 1.33219 446 680 
1988-3 38 423.00 10.05000 1.35065 450 328 
1988-4 38 480.66 10.83333 1.36648 453 516 


Notas: M1 = C$, millones. 
P = deflactor implicito de precios (1981 = 100). 
R = tasa de interés corporativa preferencial a 90 días, %. 
PIB = C$, millones (precios de 1981). 


A fin de volver a obtener la función de demanda de largo plazo (17.11.2), sólo se necesita 
dividir la función de demanda de corto plazo entre ô (¿por qué?) y eliminar el término ln M,_;. 
Los resultados son: 


In Mi = 21.7888 — 1.6132 In R, — 0.6030 In PIB (17.11.7)® 


45 Note que no presentamos los errores estándar de los coeficientes estimados por las razones dadas en la 
nota 44. 
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Como se observa, la elasticidad del interés de largo plazo para la demanda de dinero es sustan- 
cialmente más grande (en términos absolutos) que la correspondiente a la elasticidad de corto 
plazo, lo cual también se cumple para la elasticidad de ingreso, aunque en el presente ejemplo su 
significancia económica y estadística es dudosa. 

Observe que la d de Durbin-Watson estimada es de 2.4582, valor muy cercano a 2, lo cual 
apoya la observación anterior respecto de que en los modelos autorregresivos la d calculada por 
lo general está próxima a 2. En consecuencia, no debemos confiar en la d calculada para ave- 
riguar si existe correlación serial en los datos. El tamaño de la muestra para este caso es de 40 
observaciones, lo cual es razonablemente grande para aplicar la prueba h. En este ejemplo, el 
lector puede verificar que el valor A estimado es —1.5008, que no resulta significativo en el ni- 
vel de 5%, con lo cual quizá se sugiere que no existe autocorrelación de primer orden en el 
término de error. 


17.12 Ejemplos ilustrativos 


En esta sección presentamos algunos ejemplos de modelos de rezagos distribuidos para mostrar 
la forma como los investigadores los utilizan en estudios empíricos. 


EJEMPLO 17.9 
La Reserva Federal 
y la tasa de interés 
real 


Para evaluar el efecto del crecimiento de M1 (circulante + depósitos a la vista) sobre la tasa de 
interés real de los bonos Aaa, G. J. Santoni y Courtenay C. Stone*f estimaron, con información 
mensual, el siguiente modelo de rezagos distribuidos para Estados Unidos. 


11 
re = constante + >D aj Mi; + Ui (17.12.1) 
i=0 
donde r; = índice de rendimiento de los bonos Aaa de Moody menos la tasa de cambio prome- 
dio anual en el índice de precios al consumidor ajustado estacionalmente durante los 36 meses 
anteriores, que sirve como medida de la tasa de interés real, y M; = crecimiento mensual de 
Mı. 

De acuerdo con la “doctrina de la neutralidad del dinero”, las variables económicas reales 
—como producción, empleo, crecimiento económico y tasa de interés real— no reciben influen- 
cia permanente del crecimiento monetario y, por consiguiente, no se ven afectadas en esencia 
por la política monetaria. . . Con este argumento, la Reserva Federal no ejerce influencia perma- 
nente alguna sobre la tasa real de interés. 

Si esta doctrina es válida, entonces se debe esperar que los coeficientes a; de los rezagos 
distribuidos, al igual que su suma, sean estadísticamente no diferentes de cero. Para averiguar si 
sucede así, los autores estimaron (17.12.1) para dos periodos diferentes, febrero de 1951 a sep- 
tiembre de 1979 y octubre de 1979 a noviembre de 1982, el último para considerar el cambio 
en la política monetaria del Banco de la Reserva Federal, la cual desde octubre de 1979 presta 
mayor atención a la tasa de crecimiento de la oferta monetaria que a la tasa de interés, cuando 
esta última fue la política en el periodo anterior. Los resultados de su regresión se presentan en 
la tabla 17.6. Estos resultados parecen apoyar la “doctrina de la neutralidad del dinero”, pues 
durante febrero de 1951 a septiembre de 1979 el crecimiento monetario del periodo en curso, 
al igual que el rezagado, no tuvieron un efecto estadísticamente significativo sobre la medida de 
la tasa de interés real. Del mismo modo, durante el último periodo, la doctrina de la neutralidad 
parece mantenerse, pues }_ a; no es estadísticamente diferente de cero; sólo el coeficiente a] es 
significativo, pero tiene el signo equivocado. (¿Por qué?) 


46 “The Fed and the Real Rate of Interest”, Review, Federal Reserve Bank of St. Louis, diciembre de 1982, pp. 
8-18. 


4 Ibid., p. 15. 
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TABLA 17.6 Influencia del crecimiento mensual de M1 sobre una medida de la tasa de interés 
real de los bonos Aaa: febrero de 1951 a noviembre de 1982 
11 
r= constante + X` a; Mi, 
¡=0 
Febrero de 1951 a Octubre de 1979 a 
septiembre de 1979 noviembre de 1982 
Coeficiente F Coeficiente Je)* 
Constante 1.4885? 2.068 1.0360 0.801 
ao —0.00088 0.388 0.00840 1.014 
ai 0.00171 0.510 0.03960 3.419 
a2 0.00170 0.423 0.03112 2.003 
a3 0.00233 0.542 0.02719 1.502 
a4 —0.00249 0.553 0.00901 0.423 
As -0.00160 0.348 0.01940 0.863 
dé 0.00292 0.631 0.02411 1.056 
a7 0.00253 0.556 0.01446 0.666 
ag 0.00000 0.001 —0.00036 0.019 
ag 0.00074 0.181 -0.00499 0.301 
dio 0.00016 0.045 —0.01126 0.888 
a11 0.00025 0.107 -0.00178 0.211 
Ya; 0.00737 0.221 0.1549 0.926 
R2 0.9826 0.8662 
D-W 2.071 2.04 
RHO1 1.271 24.536 1.40% 9.838 
RHO2 —0.28 5.410 -0.481 3.373 
NOB 344. 38. 
SER ( = SCR) 0.1548 0.3899 


*|1] = valor absoluto de £. 

Y Significativamente diferente de cero en el nivel de 0.05. 

Fuente: G. J. Santoni y Courtenay C. Stone, “The Fed and the Real Rate of Interest”, Review, Federal Reserve Bank of St. Louis, di- 
ciembre de 1982, p. 16. 


EJEMPLO 17.10 
El consumo agre- 
gado de corto y 
largo plazos de Sri 
Lanka, 1967-1993 


Suponga que el consumo C está relacionado linealmente con el ingreso permanente X*: 


Ct = b1 +B2Xf + ut (17.12.2) 


Como Xf no es observable directamente, necesitamos especificar el mecanismo que genera el 
ingreso permanente. Suponga que adoptamos la hipótesis de expectativas adaptativas especifi- 
cada en (17.5.2). Con (17.5.2) y al simplificar, obtenemos la siguiente ecuación de estimación 
(cf. 17.5.5): 


Ci = 01 +097X;++03C1-7 + ve (17.12.3) 


donde a] = yB1 
&œ2 = yB2 
a3=(l — y) 
ve = [u — (1 — Yui] 


Como sabemos, $2 da la respuesta media del consumo, por ejemplo, a un incremento de 
un dólar en el ingreso permanente, mientras que «2 da la respuesta media del consumo a un 
incremento de un dólar en el ingreso actual. 


(continúa) 
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EJEMPLO 17.10 
(continuación) 


TABLA 17.7 
Gasto de consumo pri- 
vado y PIB, Sri Lanka 


Fuente: Véase la nota 48. 


A partir de los datos anuales de Sri Lanka de 1967 a 1993 en la tabla 17.5 se obtuvieron los 
siguientes resultados de la regresión:*8 


Ĉ = 1 038.403 + 0.4043X,+ 0.5009C;_1 
ee =(2 501.455) (0.0919) (0.1213) (17.12.4) 
t= (0.4151) (4.3979) (4.1293) 
R? = 0.9912 d=1.4162 F= 1 298.466 


donde C = gasto de consumo privado y X = PIB, ambos a precios constantes. También introdu- 
jimos la tasa de interés real en el modelo, pero no fue estadísticamente significativa. 

Los resultados muestran que la propensión marginal a consumir de corto plazo (PMC) es 
igual a 0.4043, lo que sugiere que un incremento de una rupia en el ingreso real observado 
o actual (como lo mide el PIB) aumentaría el consumo medio en casi 0.40 rupias. Pero si se 
conserva el aumento en el ingreso, entonces a la larga el PMC, sin el ingreso permanente, sería 
de £2 = yB2/y = 0.4043/0.4991 = 0.8100, o de casi 0.81 rupias. En otras palabras, cuando los 
consumidores tengan tiempo para ajustarse al cambio de 1 rupia en el ingreso, incrementarán 
su consumo a final de cuentas en 0.81 rupias. 

Ahora, suponga que la función de consumo es 


Cf = Bi + b2Xt + ue (17.12.5) 


En esta formulación, el consumo permanente o de largo plazo C es una función lineal del in- 
greso actual u observado. Como Cf no es observable directamente, es preciso acudir al modelo 
de ajuste parcial (17.6.2). Con este modelo y tras un reordenamiento algebraico, obtenemos 


G = 9 + 882X++(1l — 6)C1-1 + Sur 


17.12.6 
= i +02X¿+03Ci1 + Ve ( ) 


En apariencia, este modelo no se diferencia del modelo de expectativas adaptativas (17.12.3). 
Por consiguiente, los resultados de la regresión en (17.12.4) son por igual aplicables aquí. Sin 
embargo, hay una gran diferencia en la interpretación de los dos modelos, para no mencionar 
el problema de estimación asociado al modelo autorregresivo y quizá al serialmente correlacio- 


Observación GACP PIB Observación GACP PIB 
1967 61 284 78 221 1981 120 477 152 846 
1968 68 814 83 326 1982 133 868 164 318 
1969 76 766 90 490 1983 148 004 172 414 
1970 73576 92 692 1984 149 735 178 433 
1971 73256 94 814 1985 155 200 185 753 
1972 67 502 92 590 1986 154 165 192 059 
1973 78 832 101 419 1987 155 445 191 288 
1974 80 240 105 267 1988 157 199 196 055 
1975 84 477 112 149 1989 158 576 202 477 
1976 86 038 116 078 1990 169 238 223 225 
1977 96 275 122 040 1991 179 001 233 231 
1978 101 292 128 578 1992 183 687 242 762 
1979 105 448 136 851 1993 198 273 259 555 
1980 114 570 144 734 


Notas: GACP = gasto de consumo privado. 
PIB = producto interno bruto. 


48 Los datos provienen del disco incluido en la obra de Chandan Mukherjee, Howard White y Marc Wuyts 
Econometrics and Data Analysis for Developing Countries, Routledge, Nueva York, 1998. Los datos originales 
son de las World Tables (tablas mundiales), del Banco Mundial. 
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EJEMPLO 17.10 nado (17.12.3). El modelo (17.12.5) es la función de consumo de largo plazo, o de equilibrio, 
mientras que (17.12.6) es la función de consumo de corto plazo. $2 mide la PMC de largo pla- 
zo, mientras que «2 (= 382) da la PMC de corto plazo; la primera se obtiene de la segunda al 
dividir esta última entre ô, el coeficiente de ajuste. 

De regreso a (17.12.4), ahora podemos interpretar a 0.4043 como la PMC de corto plazo. 
Como 3 = 0.4991, la PMC de largo plazo es 0.81. Observe que el coeficiente de ajuste de alrede- 
dor de 0.50 sugiere que en cualquier periodo dado, los consumidores sólo ajustan su consumo 
un medio hacia su nivel deseado, o de largo plazo. 

Este ejemplo permite ver el punto crucial de que, en apariencia, los modelos de expectati- 
vas adaptativas y de ajuste parcial, o el modelo de Koyck para este caso, son tan similares que 
no podemos decir cuál es la especificación correcta sólo con observar la regresión estimada, 
como (17.12.4). Por esta razón, es vital especificar la base teórica del modelo seleccionado para 
el análisis empírico y proceder luego apropiadamente. Si el hábito o la inercia caracterizan el 
comportamiento del consumo, el modelo de ajuste parcial es el adecuado. Por otra parte, si 
el comportamiento del consumo mira hacia adelante en el sentido de que se basa en el ingreso 
futuro esperado, entonces el modelo de expectativas adaptativas es el apropiado. Si es el último, 
se tendrá que prestar mucha atención al problema de estimación para obtener estimadores con- 
sistentes. En el primer caso, MCO proporciona estimadores consistentes en tanto se cumplan los 
supuestos usuales de MCO. 


(continuación) 


17.13 El método de Almon para los modelos de rezagos distribuidos: 


rezagos distribuidos polinomiales (RDP) o de Almon?*? 


Si bien es muy común en la práctica, el modelo de rezagos distribuidos de Koyck se basa en el 
supuesto de que los coeficientes $ se reducen geométricamente a medida que aumenta el rezago 
(véase la figura 17.5). Este supuesto puede ser muy restrictivo en algunas situaciones. Considere, 
por ejemplo, la figura 17.7. 

En la figura 17.7a se supone que las £ aumentan al principio y luego disminuyen, mientras que 
en la figura 17.7c se supone que siguen un patrón cíclico. Claro, el esquema de Koyck de modelos 
de rezagos distribuidos no funciona en estos casos. Sin embargo, después de mirar las figuras 
17.74) y c), parece posible expresar $; como función de į, la duración del rezago (tiempo), y 
ajustar curvas apropiadas para reflejar la relación funcional entre ambas, como indican las figuras 
17.7b) y d). Este método es precisamente el sugerido por Shirley Almon. Para ilustrar su técnica, 
consideremos de nuevo el modelo de rezagos distribuidos finito ya analizado, a saber, 


Y, =0 + BoA, + BA 1 + b2Xi-2 0 + BrX ta + Us (17.1.2) 


que se escribe en forma más compacta como 


k 
Y, =0 +) fiXi +u (17.13.1) 
¡=0 
Según un teorema en matemáticas conocido como teorema de Weierstrass, Almon supone 
que fB, puede aproximarse mediante un polinomio apropiado en į, la longitud del rezago.*% Por 
ejemplo, si aplica el esquema de rezagos de la figura 17.7a, escribimos 


Bi = a + aji + ai? (17.13.2) 


4 Shirley Almon, “The Distributed Lag Between Capital Appropriations and Expenditures”, Econometrica, 
vol. 33, enero de 1965, pp. 178-196. 

50 En términos generales, el teorema plantea que en un intervalo cerrado finito, cualquier función continua 
puede aproximarse uniformemente mediante un polinomio de un grado apropiado. 
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FIGURA 17.7 
Esquema de Almon para 
el rezago polinomial. 
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que es un polinomio cuadrático, o de segundo grado, en i (véase la figura 17.7b). Sin embargo, si 
las £ siguen el patrón de la figura 17.7c), escribimos 


Bi = ag + aji + ani? + azi? (17.13.3) 


que es un polinomio de tercer grado en i (véase la figura 17.74). De forma más general, podemos 
escribir 


Bi = ao + ai + ai? +--+ ami” (17.13.4) 


que es un polinomio de grado m en i. Se supone que m (el grado del polinomio) es menor que k 
(longitud máxima del rezago). 

Para explicar cómo funciona el esquema de Almon, supongamos que las $ siguen el patrón de 
la figura 17.7a y, por consiguiente, la aproximación polinomial de segundo grado es apropiada. 
Al sustituir (17.13.2) en (17.13.1), obtenemos 

k 
Y, =a + Y (ao + a+ di JX; + u; 
i=0 (17.13.5) 


k k k 
=g + ao Xi +41 > +4) Y) Xai +u 
i=0 i=0 i=0 
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Definimos 
k 
Zo =} Xni 
i=0 
3 
Zy =D iX (17.13.6) 


y podemos escribir (17.13.5) como 
Y, =4 + 40Zo: + a41Z 11 + 42 Zat + us (17.13.7) 


En el esquema de Almon se hace una regresión de Y sobre las variables Z construidas, no 
sobre las variables X originales. Observe que (17.13.7) se estima mediante el procedimiento 
usual de MCO. Las estimaciones de « y a; así obtenidas tendrán todas las propiedades estadís- 
ticas deseables siempre que el término de perturbación estocástico u satisfaga los supuestos del 
modelo clásico de regresión lineal. Al respecto, la técnica de Almon tiene una clara ventaja sobre 
el método de Koyck porque, como vimos, el último tiene algunos problemas graves de estima- 
ción debidos a la presencia de la variable explicativa estocástica Y,_, y a su probable correlación 
con el término de perturbación. 

Una vez estimadas las a de (17.13.7), se estiman las £ originales de (17.13.2) [o, más general- 
mente, de (17.13.4)] de la siguiente manera: 


Êo =ú0 

Êi = ôo +â +â» 

Ê» = do + 2â1 + 4d (17.13.8) 
Ês = ĉo + 341 +94, 


Êr = âo + kâ1 + 124) 


Antes de aplicar la técnica de Almon, debemos resolver los siguientes problemas prácticos. 


1. La longitud máxima del rezago k debe especificarse por adelantado. Aquí quizá se puede 
seguir el consejo de Davidson y MacKinnon: 


El mejor enfoque es tal vez resolver primero la pregunta de la longitud del rezago, empezando con 
un valor muy grande de q [la longitud del rezago] y luego ver si el ajuste del modelo se deteriora 
significativamente cuando éste se reduce sin imponer restricción alguna sobre la forma del rezago 
distribuido.*' 


Recuerde que si hay alguna longitud de rezago “verdadera”, la selección de una cantidad menor 
de rezagos generará un “sesgo por omisión de variable relevante”, cuyas consecuencias, como 
vimos en el capítulo 13, llegan a ser muy graves. Por otra parte, la selección de más rezagos de 
los necesarios resultará en un “sesgo por inclusión de variable irrelevante”, cuyas consecuencias 
son menos graves; los coeficientes se estiman consistentemente por MCO, aunque sus varianzas 
pueden ser menos eficientes. 


51 Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford University Press, 
Nueva York, 1993, pp. 675-676. 
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Se puede elegir la longitud adecuada del rezago con el criterio de información de Akaike o el 
de Schwarz, analizados en el capítulo 13. Con dichos criterios también se analiza el grado ade- 
cuado del polinomio, además de lo expuesto en el punto 2. 


2. Una vez especificado k, debemos puntualizar también el grado m del polinomio. Por lo ge- 
neral, el grado del polinomio debe ser por lo menos uno más que el número de puntos de inflexión 
en la curva que relaciona f;con i. Así, en la figura 17.7a sólo hay un punto de inflexión: por tanto, 
un polinomio de segundo grado será una buena aproximación. En la figura 17.7c hay dos puntos 
de inflexión: por tanto, un polinomio de tercer grado será una buena aproximación. A priori, sin 
embargo, no podemos conocer el número de puntos de inflexión y, por consiguiente, la selección 
de m es muy subjetiva. Sin embargo, la teoría puede sugerir una forma particular en algunos 
casos. En la práctica, se espera que un polinomio de relativamente pocos grados (por ejemplo, 
m = 20 3) dé buenos resultados. Tras seleccionar un valor particular de m, si deseamos averiguar 
si un polinomio de mayor grado dará un mejor ajuste, procedemos de la siguiente manera. 

Suponga que debemos decidir entre polinomios de segundo y tercer grados. Para el polino- 
mio de segundo grado, la ecuación de estimación es como (17.13.7). Para el polinomio de tercer 
grado, la ecuación correspondiente es 


Y, =4 + do Zort + adı Zit + a2 Zas + a3 Z3t + us (17.13.9) 


donde Z3; = Da i? X,_¡ Después de efectuar la regresión (17.13.9), si encontramos que a, es 
estadísticamente significativo pero que a3 no lo es, podemos suponer que el polinomio de se- 
gundo grado proporciona una aproximación razonablemente buena. 

Por otro lado, como proponen Davidson y MacKinnon: “Después de determinar q [la longitud 
del rezago], se puede tratar de determinar d [el grado del polinomio] empezando de nuevo con un 
valor grande para luego reducirlo.”%? 

Sin embargo, debemos tener cuidado con el problema de la multicolinealidad, que tal vez 
surgirá debido a la forma de construir las Z a partir de las X, como se muestra en (17.13.6) [véase 
también (17.13.10)]. Como vimos en el capítulo 10, en casos de multicolinealidad grave, âz 
puede resultar estadísticamente no significativo no porque el verdadero az sea cero, sino tan sólo 
porque la muestra disponible no permite evaluar el impacto separado de Z3 sobre Y. Por consi- 
guiente, en el ejemplo, antes de aceptar la conclusión de que el polinomio de tercer grado no es 
la selección correcta, debemos asegurarnos de que el problema de multicolinealidad no sea lo 
bastante grave, para lo cual aplicamos las técnicas analizadas en el capítulo 10. 


3. Una vez especificadas m y k, las Z se construyen fácilmente. Por ejemplo, si m = 2 y k = 
5, las Z son 


5 
Za = Y Xai =(X, +X, 1 +X, 2+X; 3+X, 4+X; s) 
i=0 


5 
Zi =>) iX, i = (X1 + 2X2 + 3X,-3 + 4X;-4 + 5X;-5) (17.13.10) 
i=0 


5 
Zu = y ?X, i = (Xr-1 + 4X2 + 9X13 +16X,_4+25X;_5) 
i=0 


Observe que las Z son combinaciones lineales de las X originales. Observe también la razón 
por la cual es probable que las Z presenten multicolinealidad. 


52 Ibid., pp. 675-676. 
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Antes de proceder a un ejemplo numérico, advierta las ventajas del método de Almon: en 
primer lugar, proporciona un método flexible de incorporar una diversidad de estructuras del 
rezago (véase el ejercicio 17.17). La técnica de Koyck, por otra parte, es muy rígida en el sentido 
de que supone que las 6 se reducen geométricamente. En segundo lugar, a diferencia de la téc- 
nica de Koyck, en el método de Almon no hay que preocuparnos por la presencia de la variable 
dependiente rezagada como variable explicativa en el modelo y los problemas de estimación que 
esto crea. Por último, si se puede ajustar un polinomio de un grado lo bastante bajo, el número de 
coeficientes por estimar (las a) es mucho menor que el número original de coeficientes (las £). 

Pero destaquemos de nuevo los problemas de la técnica de Almon. En primer lugar, el grado 
del polinomio, al igual que el valor máximo del rezago, es en gran medida una decisión subjetiva. 
En segundo lugar, por las razones ya mencionadas, es probable que las variables Z presenten 
multicolinealidad. Por consiguiente, en modelos como (17.13.9) es probable que las a estima- 
das muestren errores estándar grandes (relativos a los valores de estos coeficientes), con lo cual 
se obtienen uno o más de tales coeficientes estadísticamente no significativos con base en la 
prueba í convencional. Pero esto no necesariamente significa que uno o más de los coeficientes 
B originales también sean estadísticamente no significativos. (La prueba de esta afirmación es un 
poco complicada, pero se sugiere en el ejercicio 17.18.) Como resultado, el problema de multi- 
colinealidad puede no ser tan grave como se podría pensar. Además, como sabemos, en casos de 
multicolinealidad, aunque no sea posible estimar un coeficiente individual en forma precisa, sí 
lo es estimar una combinación lineal (la función estimable) de tales coeficientes en forma más 
exacta. 


EJEMPLO 17.11 
Ilustración del 
modelo de rezagos 
distribuidos de 
Almon 


Para mostrar la técnica de Almon, en la tabla 17.8 se presenta información sobre inventarios Y 
y ventas X en Estados Unidos de 1954 a 1999. 

Para fines ilustrativos, suponga que los inventarios dependen de las ventas en el año en curso 
y los tres años anteriores, de la siguiente manera: 


Y, =0 + BoXi+ B1Xt1 t EX2 + 8B3X1-3 + Ut (17.13.11) 


Además, suponga que £; puede aproximarse mediante un polinomio de segundo grado, como 
en (17.13.2). Entonces, según (17.13.7), podemos escribir 


Y; = œ + do Zot + M1 Zit + A2 Z2t + Ue (17.13.12) 
donde 


3 

A = Xi = (Xt + Xt-1 + Xt-2 + Xt-3) 
¡=0 
3 

Z= Y ea = Ke A ORA S) (17.13.13) 
¡=0 


3 
By = i? Xi = (X1 +4Xı-2 +9Xt-3) 
i=0 


i= 


Las variables Z así construidas se muestran en la tabla 17.8. Con la información sobre Y y las Z, 
obtenemos la siguiente regresión: 


Pi = 25 845.06 + 1.1149Zo = 037132. — 0.06002, 
— (6 596.998) (0.5381 1.3743 0.4549 

EA SS ) ( ) ( ) (17.13.14) 
t= (3.9177) (2.0718) (-0.2702)  (-0.1319) 


R? = 0.9755 d= 0.1643 F= 517.7656 


Nota: Como utilizamos un rezago de tres años, el número total de observaciones se redujo de 
46 a 43. 


(continúa) 
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EJEMPLO 17.11 TABLA 17.8 Inventarios Y y ventas X, sector manufacturero de Estados Unidos, y 


(continuación) OS 

Observación Inventario Ventas Zo Zi Z2 
1954 41 612 23 355 NA NA NA 
1955 45 069 26 480 NA NA NA 
1956 50 642 27 740 NA NA NA 
1957 51 871 28 736 106 311 150 765 343 855 
1958 50 203 27 248 110 204 163 656 378 016 
1959 52 913 30 286 114 010 167 940 391 852 
1960 53 786 30 878 117 148 170 990 397 902 
1961 54 871 30 922 119 334 173 194 397 254 
1962 58 172 33 358 125 444 183 536 427 008 
1963 60 029 35 058 130 216 187 836 434 948 
1964 63 410 37 331 136 669 194 540 446 788 
1965 68 207 40 995 146 742 207 521 477 785 
1966 77 986 44 870 158 254 220 831 505 841 
1967 84 646 46 486 169 682 238 853 544 829 
1968 90 560 50 229 182 580 259 211 594 921 
1969 98 145 53 501 195 086 277 811 640 003 
1970 101 599 52 805 203 021 293 417 672 791 
1971 102 567 55 906 212 441 310 494 718 870 
1972 108 121 63 027 225 239 322 019 748 635 
1973 124 499 72 931 244 669 333 254 761 896 
1974 157 625 84 790 276 654 366 703 828 193 
1975 159 708 86 589 307 337 419 733 943 757 
1976 174 636 98 797 343 107 474 962 1 082 128 
1977 188 378 113 201 383 377 526 345 1 208 263 
1978 211 691 126 905 425 492 570 562 1 287 690 
1979 242 157 143 936 482 839 649 698 1 468 882 
1980 265 215 154 391 538 433 737 349 1 670 365 
1981 283 413 168 129 593 361 822 978 1 872 280 
1982 311 852 163 351 629 807 908 719 2 081 117 
1983 312 379 172 547 658 418 962 782 2 225 386 
1984 339 516 190 682 694 709 1 003 636 2339112 
1985 334 749 194 538 721 118 1 025 829 2 351 029 
1986 322 654 194 657 752 424 1 093 543 2 510 189 
1987 338 109 206 326 786 203 1155 779 2 688 947 
1988 369 374 224 619 820 140 1179 254 2 735 796 
1989 391 212 236 698 862 300 1 221 242 2 801 836 
1990 405 073 242 686 910 329 1 304 914 2 992 108 
1991 390 905 239 847 943 850 1 389 939 3 211 049 
1992 382 510 250 394 969 625 1 435 313 3 340 873 
1993 384 039 260 635 993 562 1 458 146 3 393 956 
1994 404 877 279 002 1 029 878 1 480 964 3 420 834 
1995 430 985 299 555 1 089 586 1 551 454 3 575 088 
1996 436 729 309 622 1 148 814 1 639 464 3761 278 
1997 456 133 327 452 1 215 631 1 745 738 4 018 860 
1998 466 798 337 687 1 274316 1 845 361 4 261 935 
1999 470 377 354 961 1 329 722 1 921 457 4 434 093 


Nota: Y y X están en millones de dólares, ajustados por estacionalidad. 
Fuente: Economic Report of the President, 2001, tabla B-57, p. 340. Las Z son como las de (17.13.13). 
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EJEMPLO 17.11 Cabe anotar un breve comentario sobre los resultados anteriores. De las tres variables Z, sólo 
Zo es estadísticamente significativa en un nivel individual, en el nivel de 5%; pero las otras no 
lo son, a pesar de que el valor F es tan alto que se puede rechazar la hipótesis nula de que, de 
manera colectiva, las Z no tienen efecto alguno sobre Y. Como se puede sospechar, lo anterior 
bien puede deberse a la multicolinealidad. Asimismo, observe que el valor d calculado es muy 
bajo, lo cual no necesariamente significa que los residuos presenten autocorrelación. Lo más 
probable que el bajo valor de d sugiera que el modelo esté mal especificado. Comentaremos 
esto más adelante. 

De los coeficientes a estimados dados en la ecuación (17.13.13), fácilmente se estiman los 
coeficientes originales £ de la relación (17.13.8). En este ejemplo, los resultados son los siguien- 
tes: 


(continuación) 


Êo = âo = 1.1149 


E (17.13.15) 
b2 = (40 + 241 + 442) = 0.1321 
$3 = (âo + 3ú1 + 942) = 0.5394 
Así, el modelo de rezagos distribuidos estimado correspondiente a (17.13.11) es 
Y, = 25 845.0  +1.1150Xo + 0.6836X;_1 + 0.1321X;_2 — 0.5394X;_3 
ee = (6596.99) (0.5381) (0.4672) (0.4656) (0.5656) (17.13.16) 


t= (3.9177) (2.0718) (1.4630) (0.2837) (-0.9537) 


Geométricamente, las £; estimadas se muestran en la figura 17.8. 


FIGURA 17.8 12r ~. 
Estructura de rezagos Sy 
del ejemplo ilustrativo. Sa 
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Este ejemplo numérico sirve para señalar otras características del procedimiento de Almon: 


1. Los errores estándar de los coeficientes a se obtienen directamente de la regresión por MCO 
(17.13.14), pero los errores estándar de algunos coeficientes £, que son el objetivo principal, 
no pueden obtenerse así. Pero se pueden calcular con facilidad de los errores estándar de los 
coeficientes a estimados mediante una fórmula de estadística bien conocida, dada en el ejer- 
cicio 17.18. Desde luego, no hay necesidad de hacer esto de forma manual, pues la mayoría 
del software estadístico lo realiza de manera rutinaria. Los errores estándar de (17.13.15) se 
obtuvieron mediante EViews 6. 
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17.14 Causalidad en economía: prueba de causalidad de Granger 


Parte Tres 


Temas de econometria 


2. Las Ê obtenidas en (17.13. 16) se denominan estimaciones no restringidas, pues no se colocan 


restricciones a priori sobre ellas. Algunas ocasiones, sin embargo, podemos desear imponer 
las llamadas restricciones de punto final sobre las 6 según el supuesto de que Bo y Bx (el 
coeficiente del periodo actual y el del k-ésimo rezago) son cero. Por razones psicológicas, 
institucionales o tecnológicas, el valor de la variable explicativa en el periodo actual puede 
no tener impacto alguno sobre el valor actual de la variable dependiente, lo cual justifica el 
valor de cero para fp. Por las mismas razones, el coeficiente del k-ésimo rezago puede no tener 
impacto alguno sobre la variable dependiente, lo cual apoya el supuesto de que £% es cero. En 
el ejemplo del inventario (ejemplo 17.11), el coeficiente de X,_3 tuvo un signo negativo, lo 
cual quizá no tenga sentido económico. Por tanto, tal vez deseemos restringir ese coeficiente a 
cero.** Desde luego, no se tienen que restringir ambos extremos; podemos imponer limitantes 
sólo al primer coeficiente (lo cual se conoce como restricción en el extremo próximo) o al 
último coeficiente (restricción en el extremo lejano). Para el ejemplo del inventario, esto se 
ilustra en el ejercicio 17.28. A veces, las 8 están estimadas con la restricción de que su suma 
sea igual a la unidad. Pero no se deben imponer restricciones de manera negligente, pues tam- 
bién afectan los valores de los demás coeficientes rezagados (sin restricciones). 


. En vista de que la elección del número de coeficientes rezagados y el grado del polinomio se 


dejan al criterio del que elabora el modelo, resulta inevitable cierto grado de ensayo y error, 
además de la carga que implica la búsqueda exhaustiva de datos. En esta situación es cuan- 
do resultan útiles los criterios de información de Akaike y Schwarz, analizados en el capí- 
tulo 13. 


. Como estimamos (17.13.16) mediante tres rezagos y el polinomio de segundo grado, es un 


modelo de mínimos cuadrados restringidos. Suponga que decidimos usar los tres rezagos pero 
sin el método polinomial de Almon; es decir, calculamos (17.13.11) mediante MCO. ¿Qué 
sucede entonces? Primero veamos los resultados: 


$, =26008.60 + 0.9771% + 1.0139X, 1 — 0.2022 ¥, > —  0:3935X,_3 
ee= (6691.12) (0.6820) (1.0920) (1.1021) (0.7186) 
t= (3.8870) (1.4327) (0.9284) (-0.1835) (-0.5476) 


R?= 0.9755  d=0.1571  F=379.51 (17.13.17) 


Si compara estos resultados con los de (17.13.16), verá que la R? general es prácticamente la 
misma, aunque el patrón de rezago en (17.13.17) muestra una forma más corvada que la de 
(17.13.16). Se deja al lector que verifique el valor de R? de (17.13.16). 


Como ilustra este ejemplo, se debe tener cuidado con la técnica de rezagos distribuidos de 


Almon, pues los resultados pueden llegar a ser sensibles a la hora de elegir el grado del polinomio 
y/o el número de coeficientes rezagados. 


54 


Antes, en la sección 1.4, mencionamos que, aunque el análisis de regresión trata sobre la depen- 
dencia de una variable sobre otras variables, esto no necesariamente implica causalidad. En otras 
palabras, la existencia de una relación entre las variables no prueba causalidad ni la dirección de 


53 Para una aplicación concreta, véase D.B. Batten y Daniel Thornton, “Polynomial Distributed Lags and the 
Estimation of the St. Louis Equation”, Review, Federal Reserve Bank of St. Louis, abril de 1983, pp. 13-25. 
54 Existe otra prueba de causalidad que a veces se utiliza, la llamada prueba de causalidad de Sims. La 
estudiaremos mediante un ejercicio. 
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la influencia. Pero en regresiones con datos de series de tiempo, la situación puede ser un cuanto 
distinta porque, como sostiene un autor: 


. . . el tiempo no corre hacia atrás. Es decir, si un acontecimiento A sucede antes de un suceso B, es 
posible que A cause B. Sin embargo, no es posible que B provoque A. En otras palabras, los aconte- 
cimientos pasados pueden propiciar sucesos que ocurren en la actualidad. Lo cual no sucede con los 
sucesos futuros. (Cursivas nuestras.) 


Ésta es la idea general de la llamada prueba de causalidad de Granger. Pero debemos notar con 
toda claridad que el asunto de la causalidad es en gran medida filosófico, con toda la polémica 
que esto conlleva. En un extremo están quienes opinan que “todo es causa de todo”, y en el otro, 
quien niega la existencia de cualquier clase de causalidad.*? El econometrista Edward Leamer 
prefiere el término precedencia en vez de causalidad. Francis Diebold se inclina más por el tér- 
mino causalidad predictiva: 


. . . el enunciado “y; causa y;” es sólo una forma abreviada del enunciado más preciso aunque más 
extenso de que “y; contiene información útil para predecir y; (en el sentido de los mínimos cuadrados 
lineales), además de las historias pasadas de las demás variables del sistema”. Para ahorrar espacio, 
sólo decimos que y; causa y” 


Prueba de Granger 


Para explicar la prueba de Granger consideraremos una pregunta frecuente en macroeconomía: 
¿el PIB “causa” la oferta de dinero M (PIB > M), o la oferta de dinero M causa el PIB (M > 
PIB)? (La flecha señala la dirección de la causalidad.) La prueba de causalidad de Granger su- 
pone que la información relevante para la predicción de las variables respectivas, PIB y M, está 
contenida únicamente en la información de series de tiempo sobre estas variables. La prueba 
implica la estimación de las siguientes regresiones: 


PIB, = X œ; Mi + 6;PIB -j + ui (17.14.1) 
J= 


i=1 


Mi =} iMi + a +u (17.14.2) 
J= 


¡=1 


donde se supone que las perturbaciones u1 y uz, no están correlacionadas. A propósito, observe 
que en vista de que hay dos variables, tratamos con una causalidad bilateral. En los capítulos 
sobre econometría de series de tiempo, la generalizaremos a la causalidad multivariada mediante 
la técnica de autorregresión vectorial (VAR). 

La ecuación (17.14.1) postula que el PIB actual se relaciona con los valores pasados del 
PIB mismo, al igual que con los de M, y (17.14.2) postula un comportamiento similar para M,. 


35 Gary Koop, Analysis of Economic Data, John Wiley & Sons, Nueva York, 2000, p. 175. 


36 C.W.J. Granger, “Investigating Causal Relations by Econometric Models and Cross-Spectral Methods”, 
Econometrica, julio de 1969, pp. 424-438. Aunque se conoce más como prueba Granger de causalidad, 
resulta apropiado llamarla prueba de causalidad de Wiener-Granger, en vista de que antes la propuso 
Wiener. Véase N. Wiener, “The Theory of Prediction”, en E.F. Beckenback (ed.), Modern Mathematics for 
Engineers, McGraw-Hill, Nueva York, 1956, pp. 165-190. 

57 Hay un excelente análisis de este tema en Arnold Zellner, “Causality and Econometrics”, Carnegie-Roches- 
ter Conference Series, 10, K. Brunner y A.H. Meltzer (eds.), North Holland, Ámsterdam, 1979, pp. 9-50. 


58 Francis X. Diebold, Elements of Forecasting, South Western, 2a. ed., 2001, p. 254. 


654 


Parte Tres 


Temas de econometria 


Observe que estas regresiones se realizan en forma de crecimientos, PIB y M, donde un punto 
sobre una variable indica su tasa de crecimiento. Ahora distinguimos cuatro casos: 


1. 


La causalidad unidireccional de M hacia PIB es la indicada si los coeficientes estimados 
sobre la M rezagada en (17.14.1) son estadísticamente diferentes de cero considerados como 
grupo y el conjunto de coeficientes estimados sobre el PIB rezagado en (17.14.2) no es esta- 
disticamente diferente de cero. 


. Al contrario, hay causalidad unidireccional de PIB hacia M si el conjunto de coeficientes de 


M rezagada en (17.14.1) no es estadísticamente diferente de cero y el conjunto de coeficientes 
del PIB rezagado en (17.14.2) es estadísticamente diferente de cero. 


. Se sugiere realimentación, o causalidad bilateral, cuando los conjuntos de coeficientes de M 


y de PIB son estadísticamente significativos, diferentes de cero, en ambas regresiones. 


. Por último, se sugiere independencia cuando los conjuntos de coeficientes de M y de PIB no 


son estadísticamente significativos en ambas regresiones. 


De modo más general, como el futuro no puede predecir el pasado, si la variable X (a la ma- 


nera de Granger) causa la variable Y, los cambios en X deben preceder a los cambios en Y. Por 
consiguiente, en una regresión de Y sobre otras variables (con sus propios valores pasados), si 
incluimos valores pasados o rezagados de X y esto mejora significativamente la predicción de Y, 
podemos decir que X (a la manera de Granger) causa Y. Aplica una definición similar si Y (a la 
manera de Granger) causa X. 


Los pasos comprendidos en la prueba de causalidad de Granger son los siguientes. Ilustramos 


estos pasos con el ejemplo PIB-dinero de la ecuación (17.14.1). 


li 


Haga la regresión del PIB actual sobre todos los términos rezagados del PIB y otras variables, 
en su caso, pero no incluya las variables M rezagadas en esta regresión. De acuerdo con el 
capítulo 8, ésta es la regresión restringida. A partir de esta regresión, obtenga la suma de cua- 
drados residuales restringida, SCRr. 


. Ahora efectúe la regresión con los términos rezagados M. En el lenguaje del capítulo 8, ésta es 


la regresión no restringida. A partir de esta regresión, obtenga la suma de cuadrados residuales 
no restringida, SCRypr. 


. La hipótesis nula es Hp: œ; = 0, i = 1, 2,..., n, es decir, los términos rezagados de M no 


pertenecen a la regresión. 


. Para probar esta hipótesis, aplicamos la prueba F dada por (8.7.9), a saber, 


a (SCRrz = SCRyr)/m 
-—— SCRyęg/(n — k) 


(8.7.9) 


que sigue la distribución F con m y (n — k) gl. En el presente caso, m es igual al número de 
términos rezagados de M, y k es el número de parámetros estimados en la regresión no restrin- 
gida. 


. Si el valor F calculado excede al valor F crítico en el nivel seleccionado de significancia, 


rechazamos la hipótesis nula, en cuyo caso los términos rezagados de M pertenecen a la regre- 
sión. Esta es otra forma de decir que M causa al PIB. 


. Se repiten los pasos 1 a 5 para probar el modelo (17.14.2), es decir, para definir si el PIB causa 


M. 


Antes de ilustrar la prueba de causalidad de Granger, hay varios puntos que deben tomarse en 


cuenta: 


1. 


Se supone que las dos variables, PIB y M, son estacionarias. Ya estudiamos el concepto de 
estacionariedad en términos intuitivos y lo analizaremos de manera más formal en el capítulo 
21. A veces, al tomar las primeras diferencias de las variables, las convierte en estacionarias, 
si es que aún no son estacionarias en la forma de nivel. 


Capítulo 17 Modelos econométricos dinámicos: modelos autorregresivos y de rezagos distribuidos 655 


2. El número de términos rezagados por introducir en las pruebas de causalidad es una cuestión 
práctica importante. Como en el caso de los modelos de rezagos distribuidos, quizá tengamos 
que elegir mediante el criterio de información Akaike o Schwarz. Pero debe añadirse que la 
dirección de la causalidad tal vez dependa de manera crítica del número de términos rezaga- 
dos incluidos. 


3. Supusimos que los términos de error en la prueba de causalidad no están correlacionados. 
De no ser así, quizá deba llevarse a cabo la transformación adecuada, como analizamos en el 
capítulo 12.5 


4. Como nos interesa probar la causalidad, no se requiere presentar los coeficientes estimados de 
los modelos (17.14.1) y (17.14.2) en forma explícita (para ahorrar espacio); bastan los resul- 
tados de la prueba F dados en (8.7.9). 


5. Es necesario tener cuidado con la causalidad “espuria”. En el ejemplo del PIB y la oferta 
de dinero, suponga que consideramos la tasa de interés (por ejemplo, la de corto plazo). Es 
muy posible que el dinero “cause según Granger” la tasa de interés y que la tasa de interés, a 
su vez, “cause según Granger” el PIB. Por tanto, si no tomamos en cuenta la tasa de interés 
y concluimos que el dinero causa el PIB, la causalidad observada entre el PIB y la oferta de 
dinero puede ser espuria.% Como ya señalamos, una forma de resolver esto es considerar un 
sistema de ecuaciones múltiples, como la autorregresión vectorial (VAR), que estudiaremos 
con cierto detalle en el capítulo 22. 


EJEMPLO 17.12 
Causalidad entre 
dinero e ingreso 


R. W. Hafer estableció, con la prueba de Granger, la naturaleza de la causalidad entre el PNB 
(en vez del PIB) y M para Estados Unidos de 1960-1 a 1980-IV. En vez de los valores brutos de 


estas variables, empleó sus tasas de crecimiento, de PNB y M; asimismo, utilizó cuatro rezagos 
de cada variable en las dos regresiones dadas antes. Los resultados fueron los siguientes:* En 
cada caso, la hipótesis nula establece que la variable en consideración no causa “a la manera de 


Granger” la otra variable. 


Dirección de la causalidad Valor F Decisión 
M > PNB 2.68 Se rechaza 
PNB > M 0.56 No se rechaza 


Estos resultados sugieren que la dirección de la causalidad va del crecimiento del dinero al del 
PNB, pues el valor F estimado es significativo en el nivel de 5%; el valor F crítico es 2.50 (para 4 
y 71 gl). Por otra parte, no hay una “causalidad inversa” del crecimiento del PNB al del dinero, 
pues el valor F calculado no es estadísticamente significativo. 


EJEMPLO 17.13 
Causalidad entre 
dinero y tasa de in- 
terés en Canadá 


Consulte los datos sobre Canadá proporcionados en la tabla 17.5. Suponga que deseamos 
averiguar si existe causalidad entre la oferta de dinero y la tasa de interés en Canadá en perio- 
dos trimestrales de 1979 a 1988. A fin de demostrar que la prueba de Granger para causalidad 
depende de manera crítica del número de términos rezagados introducidos en el modelo, pre- 
sentamos enseguida los resultados de la prueba F en la que se emplearon varios rezagos (trimes- 
trales). En cada caso, la hipótesis nula es que la tasa de interés no causa (a la manera de Granger) 
la oferta de dinero y viceversa. 


(continúa) 


5? Para mayores detalles, véase Wojciech W. Charemza y Derek F. Deadman, New Directions in Econometric 
Practice: General to Specific Modeling, Cointegration and Vector Autoregression, 3a. ed., Edward Elgar, 1997, 
cap. 6. 

60 Sobre este tema, véase J.H. Stock y M.W. Watson, “Interpreting the Evidence on Money-Income Causa- 
lity”, Journal of Econometrics, vol. 40, 1989, pp. 783-820. 


61 R.W. Hafer, “The Role of Fiscal Policy in the St. Louis Equation”, Review, Federal Reserve Bank of St. Louis, 
enero de 1982, pp. 17-22. Véase la nota 12 de su obra para los detalles del procedimiento. 
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EJEMPLO 17.13 
(continuación) 


Temas de econometria 


Dirección de la causalidad Número de rezagos Valor F Decisión 

R=> M 2 12.92 Rechazar 

M=>R 2 3.22 Rechazar 

R=> MM 4 5.59 Rechazar 

M—> R 4 2.45 Rechazar (en 7%) 
R= M 6 3.5163 Rechazar 

M—>R 6 3.71 Rechazar 

R= M 8 1.40 No rechazar 
M=>R 8 1.62 No rechazar 


Observe estas características de los resultados anteriores de la prueba F: de uno a seis reza- 
gos existe una causalidad bilateral entre la oferta de dinero y la tasa de interés. No obstante, a 
los ocho rezagos, no existe una relación estadísticamente discernible entre las dos variables. Lo 
anterior refuerza la observación anterior de que el resultado de la prueba de Granger es sensible 
al número de rezagos introducidos en el modelo. 


EJEMPLO 17.14 
Causalidad entre la 
tasa de crecimiento 
del PIB y la tasa 
bruta del ahorro 

en nueve países de 
Asia oriental 


TABLA 17.9 

Prueba de causalidad 
bivariada de Granger 
entre la tasa de creci- 
miento real del PIB per 
cápita y la tasa bruta 
del ahorro 


Fuente: Banco Mundial, The 
East Asian Miracle: Economic 
Growth and Public Policy, 
Oxford University Press, Nueva 
York, 1993, p. 244 (tabla AS-2). 
La fuente original es Robert 
Summers y Alan Heston, “The 
Penn World Tables (Mark 5): 
An Expanded Set of Interna- 
tional Comparisons, 1950-88”, 
Quarterly Journal of Econo- 
mics, vol. 105, núm. 2, 1991. 


Un estudio de la causalidad bilateral entre la tasa de crecimiento del PIB (g) y la tasa bruta del 
ahorro (s) mostró los resultados de la tabla 17.9.6? Con fines comparativos, los resultados tam- 
bién se presentan en la tabla los resultados de Estados Unidos. Por mucho, los resultados de la 
tabla 17.9 muestran que para la mayoría de los países de Asia oriental la causalidad tiene una 
dirección desde la tasa de crecimiento del PIB hacia la tasa bruta del ahorro. En contraste, para 
Estados Unidos la causalidad se da en ambas direcciones de 1950 a 1988 hasta el tercer rezago; 
pero a partir del cuarto y quinto rezagos, la causalidad va de la tasa de crecimiento del PIB hacia 
la tasa de ahorro, pero no en sentido inverso. 


Variable del Variable del 
lado derecho lado derecho 
Economía, Años de rezagada Economía, Años de rezagada 
años rezago Ahorro Crecimiento años rezago Ahorro Crecimiento 
Hong Kong, 1 Sig Sig Filipinas, 1 NS Sig 
1960-1988 2 Sig Sig 1950-1988 2 NS Sig 
3 Sig Sig 3 NS Sig 
4 Sig Sig 4 NS Sig 
5 Sig Sig 5 NS Sig 
Indonesia, 1 Sig Sig Singapur, 1 NS NS 
1965 2 NS Sig 1960-1988 2 NS NS 
3 NS Sig 3 NS NS 
4 NS Sig 4 Sig NS 
5 NS Sig 5 Sig NS 
Japón, 1 NS Sig Taiwán, China, 1 Sig Sig 
1950-1988 2 NS Sig 1950-1988 2 NS Sig 
3 NS Sig 3 NS Sig 
4 NS Sig 4 NS Sig 
5 NS Sig 5 NS Sig 
Corea, Rep. de, 1 Sig Sig Tailandia, 1 NS Sig 
1955-1988 2 NS Sig 1950-1988 2 NS Sig 
3 NS Sig 3 NS Sig 
4 NS Sig 4 NS Sig 
5 NS Sig 5 NS Sig 
Malasia, 1 Sig Sig Estados Unidos, 1 Sig Sig 
1955-1988 2 Sig Sig 1950-1988 2 Sig Sig 
3 NS NS 3 Sig Sig 
4 NS NS 4 NS Sig 
5 NS Sig 5 NS Sig 


Sig.: significativa; NS: no significativa. 
Nota: El crecimiento es el crecimiento real per cápita del PIB a precios internacionales de 1985. 


62 Estos resultados provienen de The East Asian Miracle: Growth and Public Policy, publicado para el Banco 
Mundial por Oxford University Press, 1993, p. 244. 
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Para concluir el análisis de causalidad de Granger, tenga en cuenta que la pregunta es si se 
puede detectar estadísticamente la dirección de la causalidad cuando temporalmente existe una 
relación entre los valores rezagados-adelantados de dos variables. Si se establece la causalidad, 
ésta sugeriría que puede utilizarse una variable para predecir la otra variable mejor de lo que 
se haría si se usara simplemente el pasado histórico de esta última variable. En el caso de las 
economías del este asiático, parece que puede predecirse mejor la tasa bruta del ahorro si se 
consideran los valores rezagados de la tasa de crecimiento del PIB, en vez de tener en cuenta 
sólo los valores rezagados de la tasa bruta del ahorro. 


*Nota sobre causalidad y exogeneidad 


Como estudiaremos en los capítulos sobre el modelo con ecuaciones simultáneas en la Parte 
4 de esta obra, a menudo las variables económicas se clasifican según dos amplias categorías: 
endógenas y exógenas. En términos generales, las variables endógenas equivalen a las variables 
dependientes de un modelo de regresión con una sola ecuación, y las exógenas, a las variables X, 
o regresoras, en tal modelo, en tanto las variables X no estén correlacionadas con el término de 
error de esa ecuación.% 

Ahora surge una pregunta importante: suponga que mediante la prueba de causalidad de 
Granger descubrimos que una variable X causa (a la manera de Granger) una variable Y, sin que 
esta última cause a aquélla (es decir, no hay causalidad bilateral), ¿podemos considerar entonces 
exógena la variable X? En otras palabras, ¿con la causalidad de Granger (o la no causalidad) 
podemos establecer exogeneidad? 

Para responder necesitamos distinguir tres tipos de exogeneidad: 1) débil, 2) fuerte y 3) súper. 
A fin de conservar la simplicidad en la exposición, suponga que sólo tenemos dos variables, Y, 
y Xn y que hacemos la regresión de Y, sobre X,. Decimos que X; es débilmente exógena si Y, 
además, no explica la existencia de X. En este caso, la estimación y la prueba del modelo de 
regresión pueden hacerse condicionales a los valores de X,. En realidad, recuerde, del capítulo 2, 
que observamos que el modelo de regresión estaba condicionado a los valores de las variables X. 
Decimos que X; es fuertemente exógena si los valores Y, actuales y rezagados, no la explican (es 
decir, no existe una relación de realimentación). Asimismo, X, es superexógena si los parámetros 
en la regresión de Y y X no cambian aunque sí lo hagan los valores de X; es decir, los valores de 
los parámetros son invariantes ante los cambios de (los) valor(es) de X. Si así sucediese en efecto, 
la famosa “crítica de Lucas” perdería su fuerza.** 

La razón para distinguir entre los tres tipos de exogeneidad es que “En general, la exogeneidad 
débil es todo lo que se requiere para la estimación y la comprobación, la exogeneidad fuerte es 
necesaria para la predicción, y la superexogeneidad se necesita para el análisis de políticas”.% 

De regreso con el tema de la causalidad de Granger, si una variable, por ejemplo Y, no causa 
otra variable, digamos X, ¿se puede suponer entonces que esta última es exógena? Por desgracia, 
la respuesta no es inmediata. Si hablamos de exogeneidad débil, podemos demostrar que la cau- 
salidad de Granger no es necesaria ni suficiente para establecer la exogeneidad. Por otra parte, 
la causalidad de Granger es necesaria (pero no suficiente) para la exogeneidad fuerte. Las pruebas 
de ambos enunciados trascienden el alcance de este libro. Así, para nuestro propósito, es mejor 


* Opcional. 

63 Desde luego, si las variables explicativas incluyen uno o más términos rezagados de la variable endógena, 
quizá no se satisfaga este requisito. 

64 Robert Lucas, ganador del Premio Nobel, planteó que las relaciones entre las variables económicas pue- 
den cambiar cuando las políticas varían, en cuyo caso los parámetros estimados a partir de un modelo de 
regresión tendrán escaso valor para la predicción. Sobre este tema, véase Oliver Blanchard, Macroeconomics, 
Prentice Hall, 1997, pp. 371-372. 

65 Keith Cuthbertson, Stephen G. Hall y Mark P. Taylor, Applied Econometric Techniques, University of Michi- 
gan Press, 1992, p. 100. 

66 Para un análisis comparativamente sencillo, véase G.S. Maddala, Introduction to Econometrics, 2a. ed., 
Macmillan, Nueva York, 1992, pp. 394-395, y también David F. Hendry, Dynamic Econometrics, Oxford Uni- 
versity Press, Nueva York, capítulo 5. 
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conservar separados los conceptos de causalidad de Granger y exogeneidad, y tratar al primero 
como una herramienta descriptiva útil para los datos de las series de tiempo. En el capítulo 19 
analizaremos una prueba para averiguar si una variable puede considerarse exógena. 


Resumen y 
conclusiones 


10. 


. Por razones psicológicas, tecnológicas e institucionales, una variable regresada puede res- 


ponder a una o varias regresoras con un rezago de tiempo. Los modelos de regresión que 
tienen en cuenta rezagos de tiempo se conocen como modelos de regresión dinámicos o 
rezagados. 


. Hay dos tipos de modelos rezagados: de rezagos distribuidos y autorregresivos. En 


el primero, los valores actuales y rezagados de las regresoras son variables explicativas. 
En el último, el (los) valor(es) rezagado(s) de la regresada aparece(n) como variable(s) 
explicativa(s). 


. Un modelo puramente de rezagos distribuidos se estima mediante MCO, pero en ese caso 


aparece el problema de multicolinealidad, pues los valores rezagados sucesivos de una regre- 
sora tienden a estar correlacionados. 


. Como resultado, se han diseñado algunos métodos abreviados: los mecanismos de Koyck, de 


expectativas adaptativas y de ajuste parcial. El primero es un método puramente algebraico 
y los otros dos se basan en principios económicos. 


. Una característica única de los modelos de Koyck, de expectativas adaptativas y de ajuste 


parcial es que todos son autorregresivos por naturaleza, es decir, el valor o valores de la 
variable regresada aparecen como una de las variables explicativas. 


. La autorregresividad plantea desafíos en la estimación; si la variable regresada rezagada está 


correlacionada con el término de error, los estimadores de MCO de tales modelos no sólo 
están sesgados, sino que también son inconsistentes. El sesgo y la inconsistencia se presen- 
tan con los modelos de Koyck y de expectativas adaptativas; el modelo de ajuste parcial es 
diferente y se estima consistentemente mediante MCO, a pesar de la presencia de la variable 
regresada rezagada. 


. Para estimar los modelos de Koyck y de expectativas adaptativas consistentemente, el mé- 


todo más común es el método de variables instrumentales. La variable instrumental es una 
variable representante para la variable regresada rezagada pero con la propiedad de que no 
está correlacionada con el término de error. 


. Una alternativa para los modelos rezagados de regresión recién analizada es el modelo de re- 


zagos distribuidos polinomial de Almon, con el cual se evitan los problemas de estimación 
asociados a los modelos autorregresivos. El principal problema con el método de Almon, 
sin embargo, es que se debe especificar por anticipado la longitud del rezago y el grado del 
polinomio. Hay métodos formales e informales para resolver la selección de la longitud 
del rezago y el grado del polinomio. 


. A pesar de los problemas de estimación, que pueden resolverse, los modelos distribuidos y 


autorregresivos han demostrado ser muy útiles en la economía empírica, porque con ellos 
es posible dinamizar la teoría económica que de otra forma sería estática, al tener en cuenta 
explícitamente el papel del tiempo. Tales modelos permiten diferenciar respuestas de corto y 
largo plazos de la variable dependiente ante cambios unitarios en el valor de la(s) variable(s) 
explicativa(s). Así, para estimar los plazos corto y largo de precio, ingreso, sustitución y 
otras elasticidades, estos modelos han demostrado ser muy útiles.” 

Debido a los rezagos participantes, los modelos distribuidos y/o autorregresivos conducen al 
tema de la causalidad en las variables económicas. En la práctica, la elaboración de modelos 
de causalidad de Granger ha recibido considerable atención. Pero se debe tener mucho 


67 Para aplicaciones de estos modelos, véase Arnold C. Harberger (ed.), The Demand for Durable Goods, Uni- 
versity of Chicago Press, Chicago, 1960. 
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cuidado con la metodología de Granger, porque es muy sensible a la longitud del rezago 
utilizado en el modelo. 

11. Aunque una variable (X) cause (a la manera de Granger) otra variable (Y), eso no significa 
que X sea exógena. Distinguimos tres tipos de exogeneidad (débil, fuerte y súper) y señala- 
mos la importancia de dicha clasificación. 


EJERCICIOS Preguntas 


17.1. Explique, de manera breve, si las siguientes afirmaciones son verdaderas, falsas o incier- 
tas: 


a) Todos los modelos econométricos son en esencia dinámicos. 


b) El modelo de Koyck no tiene mucho sentido si algunos coeficientes de los rezagos 
distribuidos son positivos y otros negativos. 


c) Silos modelos de Koyck y de expectativas adaptativas se estiman mediante MCO, los 
estimadores serán sesgados pero consistentes. 


d) En el modelo de ajuste parcial, los estimadores de MCO son sesgados en muestras 
finitas. 


e) En presencia de una o varias regresoras estocásticas y de un término de error autoco- 
rrelacionado, el método de variables instrumentales produce estimaciones insesgadas 
y consistentes. 


J) En presencia de una variable regresada rezagada como variable regresora, el estadís- 
tico d de Durbin-Watson para detectar autocorrelación es prácticamente inútil. 


g) La prueba h de Durbin es válida en muestras grandes y pequeñas. 

h) La prueba de Granger es una prueba de precedencia más que de causalidad. 
17.2. Desarrolle la ecuación (17.7.2). 
17.3. Demuestre la ecuación (17.8.3). 


17.4. Suponga que los precios se forman de acuerdo con la siguiente hipótesis de expectativas 
adaptativas: 


IP = Ya rl = ANA 


donde P* es el precio esperado y P es el precio observado. 
Complete la siguiente tabla, suponiendo que y = 0.5:* 


Periodo p* P 
t-3 100 110 
t-2 125 
t—-1 5S 
t 185 
t+1 — 


17.5. Considere el modelo 


Y, = œ + biX i + B2Xo; + BY- +v 


* Adaptado de G.K. Shaw, op. cit., p. 26. 
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Suponga que Y,¡ y v, están correlacionadas. Para eliminar la correlación, suponga que 
utilizamos el siguiente método de variable instrumental: primero haga la regresión de Y, 
sobre X¡, y Xz y obtenga el estimado Y, de esta regresión. Luego efectúe la regresión 


Y, =0 + B1X 1 + B2X01 + B3Y, 1 +v: 


donde Y,_¡ se estiman de la regresión de la primera etapa. 

a) ¿Cómo elimina este procedimiento la correlación entre Y,—ı y v; en el modelo origi- 
nal? 

b) ¿Cuáles son las ventajas del procedimiento recomendado sobre el enfoque de Li- 
viatan? 


*17.6. a) Desarrolle (17.4.8). 
b) Evalúe el rezago medio de à = 0.2, 0.4, 0.6, 0.8. 
c) ¿Hay alguna relación sistemática entre el valor de A y el rezago medio? 
17.7. a) Pruebe que para el modelo de Koyck, el rezago medio es como el que aparece en 
(17.4.10). 
b) Si A es relativamente grande, ¿cuáles son sus implicaciones? 
17.8. Con la fórmula para el rezago medio dada en (17.4.9), verifique el rezago medio de 
10.959 trimestres reportado en la ilustración de la tabla 17.1. 
17.9. Suponga que 
M, = a+ D AF EDIR AF U 
donde M = demanda de saldos reales de efectivo, Y* = ingreso real esperado y R* = tasa 
de interés esperada. Suponga que las expectativas se formulan de la siguiente manera: 
E ae a A 
R = yaly FA = R a 
donde yı y y2 son los coeficientes de expectativas, ambos entre 0 y 1. 
a) ¿Cómo expresa M, en términos de las cantidades observables? 
b) ¿Qué problemas de estimación prevé? 
*17.10. Si estima (17.7.2) por MCO, ¿puede derivar estimaciones de los parámetros originales? 
¿Qué problemas prevé? (Para mayores detalles, vea Roger N. Waud).? 
17.11. Modelo de correlación serial. Considere el siguiente modelo: 
W = 014 pX; ¿+Uu 
Suponga que u, sigue el esquema autorregresivo de Markov de primer orden dado en el 
capítulo 12, a saber, 
Ut = puri + Er 
donde p es el coeficiente de autocorrelación (de primer orden) y donde e, satisface todos 
los supuestos clásicos de MCO. Entonces, como vimos en el capítulo 12, el modelo 
== o) (10 = DA =1) Se o= =P 8, 
tendrá un término de error serialmente independiente, lo que posibilita la estimación 
por MCO. Pero este modelo, llamado modelo de correlación serial, se parece mucho a 
* Opcional. 


Y “Misspecification in the ‘Partial Adjustment’ and “Adaptive Expectations’ Models”, International Economic 
Review, vol. 9, núm. 2, junio de 1968, pp. 204-217. 
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los modelos de Koyck, de expectativas adaptativas y de ajuste parcial. ¿Cómo sabría, en 
cualquier situación dada, cuál de los modelos anteriores es el apropiado?* 


17.12. Considere el modelo de Koyck (o, para ese caso, el de expectativas adaptativas) dado en 
(17.4.7), a saber, 


L= a(l == A) + BoX+ + AY, 1 + (u, — Àu) 


Suponga que en el modelo original, u, sigue el esquema autorregresivo de primer orden u, 
— pu — + = €, donde p es el coeficiente de autocorrelación y donde e, satisface todos los 
supuestos clásicos de MCO. 

a) Sip=A, ¿el modelo de Koyck puede estimarse mediante MCO? 

b) ¿Serán insesgadas las estimaciones así obtenidas? ¿Consistentes? ¿Por qué? 

c) ¿Qué tan razonable es suponer que p = à? 


17.13. Modelo de rezagos distribuidos triangular o aritmético. Este modelo supone que el es- 
tímulo (la variable explicativa) ejerce su mayor impacto en el tiempo actual y luego se 
reduce en cantidades iguales hasta llegar a cero a medida que uno retrocede en el pasado 
distante. Geométricamente, esto se muestra en la figura 17.9. Según esta distribución, 
suponga que efectuamos la siguiente sucesión de regresiones: 


2X AP A 
1 =a+o( 2) 


3 
3X: +2X -1 + XA 
n=a+6( ie t-1 =) 
6 
4X: +3X,_ DNE DGE 
1 =0+b( 1+ =t 1—2 + =) 


etc., y seleccionamos la regresión que da la R? más elevada como la “mejor” regresión. 
Comente esta estrategia. 


FIGURA 17.9 Br 
Esquema de rezagos 
aritmético o triangular 
(de Fisher). 


Tiempo 


* Hay un análisis del modelo de correlación serial en Zvi Griliches, “Distributed Lags: A Survey”, Econome- 
trica, vol. 35, núm. 1, enero de 1967, p. 34. 

t Irving Fisher propuso este modelo en “Note on a Short-Cut Method for Calculating Distributed Lags”, In- 
ternational Statistical Bulletin, 1937, pp. 323-328. 
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17.14. 


ALS, 


17.16. 


Con base en la información trimestral del periodo 1950-1960, F. P. R. Brechling obtuvo 
la siguiente función de demanda de trabajo para la economía británica (las cifras entre 
paréntesis son errores estándar): * 


E = 14.22 + 0.1720, = 0.0281 = 0.0007É = 0.297E,_; 
(2.61) (0.014) (0.015) (0.0002) (0.033) 
R2=0.76  d=1.37 


donde E, = (E, — E;-1) 
O = producción 
t = tiempo 


La ecuación anterior se basó en el supuesto de que el nivel deseado de empleo, £*, es una 
función de la producción, del tiempo y del tiempo elevado al cuadrado, y según la hipó- 
tesis de que E, — E,-¡ = ô(E¥ — E;-1), donde ô, el coeficiente de ajuste, se encuentra 
entre 0 y 1. 


a) Interprete la regresión anterior. 
b) ¿Cuál es el valor de $? 


c) Derive la función de demanda de trabajo de largo plazo a partir de la función de de- 
manda de corto plazo estimada. 


d) ¿Cómo comprobaría la existencia de la correlación serial en el modelo anterior? 
Griliches estudió la demanda agrícola de tractores con el siguiente modelo:? 
pen Bi Pa 
Tř = AX a 
donde T* = existencias deseadas de tractores 
Xı = precios relativos de los tractores 
X = tasa de interés 


Con el modelo de ajuste de existencias, obtuvo los siguientes resultados para el periodo 
1921-1957: 


log T, = constante — 0.218 log Xi 1 — 0.855 log X>,-¡ + 0.864 log T,_¡ 
(0.051) (0.170) (0.035) 
R? = 0.987 


donde las cifras entre paréntesis son los errores estándar estimados. 

a) ¿Cuál es el coeficiente de ajuste estimado? 

b) ¿Cuáles son las elasticidades de precio de corto y largo plazos? 

c) ¿Cuáles son las elasticidades de interés correspondientes? 

d) ¿Cuáles son las razones para una tasa de ajuste alta o baja en este modelo? 

Siempre que la variable dependiente rezagada aparezca como variable explicativa, la R? 


suele ser mucho más alta que cuando no aparece. ¿Cuáles son las razones para este co- 
mentario? 


* F.P.R. Brechling, “The Relationship between Output and Employment in British Manufacturing Industries”, 
Review of Economic Studies, vol. 32, julio de 1965. 

t Zvi Griliches, “The Demand for a Durable Input: Farm Tractors in the United States, 1921-1957”, en Arnold 
C. Harberger (ed.), The Demand for Durable Goods, University of Chicago Press, Chicago, 1960. 
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FIGURA 17.10 Bi Bi 
Estructuras de rezagos 
hipotéticas. 
x 
Z 
x SS x 
x Xx ox 
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17.17. Considere los patrones de rezago de la figura 17.10. ¿A qué grado del polinomio ajustaría 
las estructuras de rezagos y por qué? 


17.18. Considere la ecuación (17.13.4): 
B =a +ait+ai +. Fan” 
Obtenemos la varianza de Bi a partir de las varianzas de â; con la siguiente fórmula: 
var(B;) = var(d0 + Gi + d+ >>> + gi”) 


m 
= > ivar (â) +2 > ¡UD cov (â;âp) 

j=0 J<p 
a) Mediante la fórmula anterior, encuentre la varianza de f; expresada como 

2. — E P ^ 2 

Bi = 40 + aji + api 

Bi = âo + âii + dni? ar azi? 
b) Si las varianzas de â; son grandes en relación con ellas mismas, ¿la varianza de f; será 

grande también? ¿Por qué? 


17.19. Considere el siguiente modelo de rezagos distribuidos: 


Y, =0 + BoX: + B1X/-1 + B2X12+ PB3X1-3 + BaX ia + us 
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FIGURA 17.11 B; 
Modelo de rezagos distri- 
buidos en V invertida. 


Rezago 


Suponga que $, se expresa adecuadamente mediante el polinomio de segundo grado de la 
siguiente manera: 


E 2 
Bi = ao + aji + ai 


¿Cómo estimaría las 6 si deseamos imponer la restricción de que o = 4 = 0? 
17.20. El modelo de rezagos distribuidos en V invertida. Considere el modelo de rezagos distri- 
buidos finitos de k periodos 
Y, =0+ B0X,+ BA 1 + BA 2 + 0004 Pra + Us 


F. DeLeeuw propuso la estructura para las $ como la presentada en la figura 17.11, donde 
las 8 siguen la forma de V invertida. Si suponemos, por simplicidad, que k (la longitud 
máxima del rezago) es un número par y también que 6o y x son cero, DeLeeuw propone 
el siguiente esquema para las 6:* 


Bi =iß 
= (k — 1)B 


¿Cómo utilizaría el esquema de DeLeeuw para estimar los parámetros del modelo ante- 
rior de rezagos distribuidos de k periodos? 


17.21. Consulte el ejercicio 12.15. Como el valor d que allí aparece es de poca utilidad para 
detectar la autocorrelación (de primer orden) (¿por qué?), ¿cómo probaría la presencia de 
autocorrelación en este caso? 

Ejercicios empíricos 

17.22. Considere el siguiente modelo: 

Y? =0 + BoX, +u, 


donde Y* = el gasto empresarial deseado, o de largo plazo, en nueva planta y equipo, 
X, = ventas y t = tiempo. Con el modelo de ajuste de existencias, estime los parámetros 


* Véase su artículo “The Demand for Capital Goods by Manufacturers: A Study of Quarterly Time Series”, 
Econometrica, vol. 30, núm. 3, julio de 1962, pp. 407-423. 


TABLA 17.10 
Inversión en planta fija y 
equipo en el sector ma- 
nufacturero Y y ventas 
industriales X, en miles 
de millones de dólares, 
ajustadas por estaciona- 
lidad, Estados Unidos, 
1970-1991 


Fuente: Economic Report of the 
President, 1993. Los datos sobre 
Y se tomaron de la tabla B-52, p. 
407; los datos sobre X se tomaron 
de la tabla 8-53, p. 408. 
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Año 

1970 
1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 
1980 


Gasto en planta, Y Ventas, X2 Año Gasto en planta, Y Ventas, X2 
36.99 52.805 1981 128.68 168.129 
33.60 55.906 1982 123.97 163.351 
35.42 63.027 1983 117.35 172.547 
42.35 72.931 1984 139.61 190.682 
52.48 84.790 1985 152.88 194.538 
53.66 86.589 1986 137.95 194.657 
58.53 98.797 1987 141.06 206.326 
67.48 113.201 1988 163.45 223.541 
78.13 126.905 1989 183.80 232.724 
95.13 143.936 1990 192.61 239.459 

112.60 154.391 1991 182.81 235.142 


1723, 


17.24. 


IZS» 


17.26. 


IZI 


17.28. 


de la función de demanda de largo y de corto plazos del gasto en la nueva planta y equipo 
a partir de la información en la tabla 17.10. 

¿Cómo averiguaría si hay correlación serial en la información? 
Con la información del ejercicio 17.22, considere el siguiente modelo: 

Ki = BoXÉ: eu 

Con el modelo de ajuste de existencias (¿por qué?), estime las elasticidades de corto y 
de largo plazos del gasto en nueva planta y equipo respecto de las ventas. Compare los 
resultados con los obtenidos en el ejercicio 17.22. ¿Qué modelo seleccionaría y por qué? 
¿Hay correlación serial en la información? ¿Cómo sabe? 
Con la información del ejercicio 17.22, suponga que 


YA =at pX tu 


donde X* son las ventas deseadas. Estime los parámetros de este modelo y compare los 
resultados con los obtenidos en el ejercicio 17.22. ¿Cómo decidiría cuál es el modelo 
apropiado? Con base en el estadístico h, concluiría que hay correlación serial en la infor- 
mación? 

Suponga que alguien lo convence de que la relación entre el gasto de la empresa en una 
nueva planta y en equipo y las ventas es la siguiente: 


ME =+ PX t 


donde Y* es el gasto deseado y X* son las ventas deseadas o esperadas. Con la informa- 
ción del ejercicio 17.22, estime este modelo y comente los resultados. 

Con los datos del ejercicio 17.22, determine si el gasto en planta causa (a la manera de 
Granger) las ventas o si las ventas causan (a la manera de Granger) el gasto en planta. Uti- 
lice hasta seis rezagos y comente los resultados. ¿Qué conclusiones importantes obtiene 
de este ejercicio? 

Suponga que las ventas en el ejercicio 17.22 tienen un efecto de rezagos distribuidos 
sobre el gasto por concepto de planta y equipo. Ajuste un modelo de rezagos Almon ade- 
cuado para los datos. 

Estime de nuevo la ecuación (17.13.16) imponiendo 1) una restricción sobre el extremo 
cercano, 2) una restricción sobre el extremo lejano y 3) restricciones en ambos extremos; 
además, compare los resultados de la ecuación (17.13.16). ¿Qué conclusión general ob- 
tiene? 
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TABLA 17.11 


Observación 


1960 
1961 
1962 
1963 
1964 
1965 
1966 
1967 
1968 
1969 
1970 
1971 
1972 
1973 
1974 
1975 
1976 
1977 
1978 
1979 


Temas de econometria 


Inversiones, ventas y tasa de interés, Estados Unidos, 1960-1999 


Inversión 


4.9 

5.2 

5.7 

6.5 

7.3 

8.5 
10.6 
11.2 
11.9 
14.6 
16.7 
17.3 
19.3 
23.0 
26.8 
28.2 
32.4 
38.6 
48.3 
58.6 


Ventas Interés Observación Inversión Ventas Interés 
60 827 4.41 1980 69.6 327 233 11.94 
61 159 4.35 1981 82.4 355 822 14.17 
65 662 4.33 1982 88.9 347 625 13.79 
68 995 4.26 1983 100.8 369 286 12.04 
73 682 4.40 1984 121.7 410 124 12.71 
80 283 4.49 1985 130.8 422 583 11.37 
87 187 5.13 1986 137.6 430 419 9.02 
90 820 5.51 1987 141.9 457 735 9.38 
96 685 6.18 1988 155.9 497 157 9.71 
105 690 7.03 1989 173.0 527 039 9.26 
108 221 8.04 1990 176.1 545 909 9.32 
116 895 7.39 1991 181.4 542 815 8.77 
131 081 7.21 1992 197.5 567 176 8.14 
153 677 7.44 1993 215.0 595 628 7.22 
177912 8.57 1994 233.7 639 163 7.96 
182 198 8.83 1995 262.0 684 982 7.59 
204 150 8.43 1996 287.3 718113 7.37 
229 513 8.02 1997 325.2 753 445 7.26 
260 320 8.73 1998 367.4 779413 6.53 
297 701 9.63 1999 433.0 833079 7.04 


Notas: Inversión = inversión fija privada en equipo para el procesamiento de información y software, miles de millones de dólares, ajustada por estacionalidad. 
Ventas = ventas totales en industria y comercio, millones de dólares, ajustadas por estacionalidad. 
Interés = tasa de los bonos empresariales Aaa de Moody, %. 


Fuente: Economic Report of the President, 2001, tablas B-18, B-57 y B-73. 


17,25, 


17.30. 


La tabla 17.11 proporciona datos sobre la inversión privada fija en procesamiento de 

información y equipo (Y, en miles de millones de dólares), las ventas totales en industria 

y comercio (Xz en millones de dólares) y la tasa de interés (45, tasa de los bonos empre- 

sariales Aaa de Moody); los datos sobre Y y X, están ajustados por estacionalidad. 

a) Pruebe la causalidad bilateral entre Y y X2, con especial atención a la longitud del 
rezago. 

b) Pruebe la causalidad bilateral entre Y y X3, con especial atención también a la longitud 
del rezago. 

c) Para permitir un efecto de rezagos distribuidos de las ventas sobre la inversión, su- 
ponga que se decide por la técnica de rezagos de Almon. Muestre el modelo estimado 
después de fijarse con cuidado en la longitud del rezago, así como en el grado del 
polinomio. 


La tabla 17.12 proporciona los datos sobre índices del salario real por hora (Y) y de la 

productividad por hora (X2), con 1992 = 100 como base de ambos índices en el sector de 

negocios de la economía estadounidense de 1960 a 1999, así como la tasa de desempleo 

civil (43) durante el mismo periodo. 

a) ¿Cómo decide si la compensación salarial determina la productividad laboral o vice- 
versa? 

b) Elabore un modelo adecuado para probar la conjetura de a), y proporcione las estadís- 
ticas usuales. 

c) ¿Es posible que la tasa de desempleo tenga algún efecto sobre la compensación sa- 
larial?, y de ser así, ¿cómo tomaría esto en cuenta? Muestre los análisis estadísticos 
necesarios. 
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TABLA 17.12 Remuneración, productividad y tasa de desempleo, Estados Unidos, 1960-1999 


Observación REMUN PRODUCT TasDES Observación REMUN PRODUCT TasDES 
1960 60.0 48.8 5.5 1980 89.5 80.4 7.1 
1961 61.8 50.6 6.7 1981 89.5 82.0 7.6 
1962 63.9 52.9 5.5 1982 90.9 81.7 9.7 
1963 65.4 55.0 5.7 1983 91.0 84.6 9.6 
1964 67.9 57.5 2 1984 91.3 87.0 7.5 
1965 69.4 59.6 4.5 1985 92.7 88.7 7.2 
1966 71.9 62.0 3.8 1986 95.8 91.4 7.0 
1967 73.8 63.4 3.8 1987 96.3 91.9 6.2 
1968 76.3 65.4 3.6 1988 97.3 93.0 5.5 
1969 77.4 65.7 3.5 1989 95.9 93.9 5.3 
1970 78.9 67.0 4.9 1990 96.5 95.2 5.6 
1971 80.4 69.9 5.9 1991 97.5 96.3 6.8 
1972 82.7 72.2 5.6 1992 100.0 100.0 7.5 
1973 84.5 74.5 4.9 1993 99.9 100.5 6.9 
1974 83.5 73.2 5.6 1994 99.7 101.9 6.1 
1975 84.4 75.8 8.5 1995 99.3 102.6 5.6 
1976 86.8 78.5 7.7 1996 99.7 105.4 5.4 
1977 87.9 79.8 7.1 1997 100.4 107.6 4.9 
1978 89.5 80.7 6.1 1998 104.3 110.5 4.5 
1979 89.7 80.7 5.8 1999 107.3 114.0 4.2 


Notas: REMUN = índice de remuneración real por hora (1992 = 100). 
PRODUCT = índice de producción por hora (1992 = 100). 
TasDES = tasa de desempleo civil, %. 


Fuente: Economic Report of the President, 2001, tabla B-49, p. 332. 


17.31. En una prueba de causalidad de Granger, Christopher Sims explota el hecho de que el 
futuro no puede causar el presente.* Para decidir si una variable Y causa una variable X, 
Sims propone estimar el siguiente par de ecuaciones: 


i=m 


ISE =p 
Y, =041+ Y) Bi + O) O Xni + (1) 
i=l =l El 


i=n ¡=m i=p 
X= +Y 8X t Y O Yi +Y 0 ii + 22 (2) 
— 


i=l i=l 1 


Estas regresiones incluyen valores rezagados, actuales y futuros, o adelantados, de las 
regresoras; los términos como X;+1, X++2, se llaman términos adelantados. 

Si Y es causa según Granger de X, debe haber alguna relación entre Y y los valores 
adelantados, o futuros, de X. Por tanto, en lugar de probar que ££; = 0, debemos probar 
que £A; = 0 en la ecuación (1). Si rechazamos esta hipótesis, la causalidad va de Y a X, 
y no de X a Y, porque el futuro no puede causar el presente. Los mismos comentarios 
aplican a la ecuación (2). 


* C.A. Sims, “Money, Income, and Causality”, American Economic Review, vol. 62, 1972, pp. 540-552. 
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A Año CP IDP Invbr PNB TIL 
Datos macroeconómicos 
BNO 1960 107 808 117 179 29 121 145 458 8 
1960-1995 1961 115 147 127 599 31 476 161 802 8 
1962 120 050 135 007 34 128 164 674 8 
Fuente: H. R. Seddighi, K. A. 1963 126 115 142 128 35 996 181 534 8.25 
T o a 1964 137 192 159 649 43 445 196 586 9 
Ritika kies maia 1 147 707 172 756 49 003 214 922 9 
1966 157 687 182 366 50 567 228 040 9 
1967 167 528 195 611 49 770 240 791 9 
1968 179 025 204 470 60 397 257 226 8.75 
1969 190 089 222 638 71 653 282 168 8 
1970 206 813 246 819 70 663 304 420 8 
1971 217 212 269 249 80 558 327 723 8 
1972 232 312 297 266 92 977 356 886 8 
1973 250 057 335 522 100 093 383 916 9 
1974 251 650 310 231 74 500 369 325 11.83 
1975 266 884 327 521 74 660 390 000 11.88 
1976 281 066 350 427 79 750 415 491 11.5 
1977 293 928 366 730 85 950 431 164 12 
1978 310 640 390 189 91 100 458 675 13.46 
1979 318 817 406 857 99 121 476 048 16.71 
1980 319 341 401 942 92 705 485 108 21.25 
1981 325 851 419 669 85 750 484 259 21.33 
1982 338 507 421 716 84 100 483 879 20.5 
1983 339 425 417 930 83 000 481 198 20.5 
1984 345 194 434 696 78 300 490 881 20.5 
1985 358 671 456 576 82 360 502 258 20.5 
1986 361 026 439 654 77 234 507 199 20.5 
1987 365 473 438 454 73 315 505 713 21.82 
1988 378 488 476 345 79 831 529 460 22.89 
1989 394 942 492 334 87 873 546 572 23.26 
1990 403 194 495 939 96 139 546 982 27.62 
1991 412 458 513 173 91 726 566 586 29.45 
1992 420 028 502 520 93 140 568 582 28.71 
1993 420 585 523 066 91 292 569 724 28.56 
1994 426 893 520 728 93 073 579 846 27.44 
1995 433 723 518 407 98 470 588 691 23.05 


Nota: Todos los datos nominales se expresan a precios constantes de mercado del año 1970 en millones de dracmas. El ingreso disponi- 
ble privado se deflaciona por el deflactor de precios al consumidor. 


Para realizar la prueba de Sims, estimamos la ecuación (1) sin los términos adelan- 
tados (regresión restringida) y después estimamos la ecuación (1) con los términos ade- 
lantados (regresión no restringida). Enseguida realizamos la prueba F como se indica en 
la ecuación (8.7.1). Si el estadístico F es significativo (por ejemplo, en el nivel de 5%), 
concluimos que es Y la que causa, según Granger, X. Los mismos comentarios aplican a 
la ecuación (2). 

¿Qué prueba elegimos, la de Granger o la de Sims? Podemos aplicar ambas.* El factor 
favorable de la prueba de Granger es que necesita menos grados de libertad porque no usa 


* La elección entre las pruebas de causalidad de Granger y Sims no es clara. Para un análisis más detallado 
de estas pruebas, véase G. Chamberlain, “The General Equivalence of Granger and Sims Causality”, Econo- 
metrica, vol. 50, 1982, pp. 569-582. 
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los términos adelantados. Si la muestra no es lo bastante grande, habrá que tener cuidado 
al usar la prueba de Sims. 

Consulte los datos del ejercicio 12.34. Para efectos pedagógicos, aplique la prueba de 
causalidad de Sims para determinar si las ventas causan el gasto en planta o viceversa. 
Use los datos de los últimos cuatro años como términos adelantados del análisis. 


17.32 La tabla 17.13 presenta algunos datos macroeconómicos de la economía griega de 1960 
a 1995, 
Considere la siguiente función de consumo: 


In CP* = 61 + b2 In IDP, + TIL, + u; 


donde CP? = gasto de consumo privado deseado real en el tiempo t; IDP, = ingreso dis- 
ponible privado en el tiempo t; TIL, = tasa de interés de largo plazo en el tiempo +; y In 
representa el logaritmo natural. 


a) Con base en los datos de la tabla 17.13, estime la función de consumo anterior e indi- 
que claramente cómo midió el gasto de consumo privado deseado real. 


b) ¿Qué problemas econométricos se presentaron al estimar la función de consumo an- 
terior? ¿Cómo los resolvió? Proporcione una explicación detallada. 


17.33 Con los datos de la tabla 17.13 formule un modelo adecuado para explicar el compor- 
tamiento de la inversión real bruta en la economía griega de 1960 a 1995. Busque en 
cualquier libro de macroeconomía el modelo acelerador de inversión. 


174.1 Prueba de Sargan para la validez 
de los instrumentos 


Suponga que utilizamos una o varias variables instrumentales para sustituir variables explicativas correla- 
cionadas con el término de error. ¿Qué validez tiene(n) la(s) variable(s) instrumental(es)?, es decir, ¿cómo 
sabe que los instrumentos elegidos son independientes del término de error? Sargan desarrolló un estadís- 
tico, llamado SARG, para probar la validez de los instrumentos utilizados en variables instrumentales (VI).* 
El proceso SARG consiste en los siguientes pasos:? 


1. Divida en dos grupos las variables incluidas en una ecuación de regresión: las independientes del tér- 


mino de error (por ejemplo, X1, X2, . . . , Xp), y las no independientes del término de error (es decir, Z1, 
Td aa o o LD 
2. Sean W1, Wa, . . ., W; los instrumentos elegidos para las variables Z en 1, donde s > q. 


3. Calcule la regresión original, sustituyendo las Z por las W; es decir, estime la regresión original mediante 
la(s) VI y obtenga los residuos, por ejemplo ù. 

4. Haga la regresión de ú sobre una constante, todas las variables X y sobre las variables W, pero excluya 
todas las variables Z. Obtenga R? de esta regresión. 

5. Ahora calcule el estadístico SARG, definido como: 


SARG = (n — DR ~ xi, (17A.1.1) 


*].D. Sargan, “Wages and Prices in the United Kingdom: A Study in Econometric Methodology”, en P.E. 
Hart, G. Mills y J.K. Whitaker (eds.), Econometric Analysis for National Economic Planning, Butterworths, Lon- 
dres, 1964. 

t El siguiente análisis se basa en H.R. Seddighi, K.A. Lawler y A.V. Katos, Econometrics: A Practical Approach, 
Routledge, Nueva York, 2000, pp. 155-156. 
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donde n = número de observaciones y k = número de coeficientes en la ecuación de regresión original. 
Según la hipótesis nula de que los instrumentos son exógenos, Sargan demostró que la prueba SARG 
asintóticamente sigue la distribución x? con (s — q) grados de libertad, donde s es el número de instru- 
mentos (es decir, las variables en W) y q es el número de regresoras en la ecuación original. Si el valor 
calculado de ji cuadrada en una aplicación es significativo estadísticamente, rechazamos la validez de 
los instrumentos. Si no es significativo estadísticamente, aceptamos como válido el instrumento elegido. 
Debe subrayarse que s > q, es decir, el número de instrumentos debe ser mayor que q. Si no es así (es 
decir, s < q), la prueba SARG no es válida. 

6. La hipótesis nula es que todos los instrumentos (W ) son válidos. Si la ji cuadrada calculada excede el 
valor ji cuadrada crítico, rechazamos la hipótesis nula, lo cual significa que al menos un instrumento está 
correlacionado con el término de error y, por tanto, las estimaciones de la(s) VI con base en los instru- 
mentos elegidos no son válidas. 


Modelos de 


ecuaciones 
simultáneas y 
econometría de 


series de tiempo 


Una mirada informal al trabajo empírico publicado en administración de empresas y en economía 
revelará que muchas relaciones económicas son de tipo uniecuacional. Por esta razón dedicamos 
las tres primeras partes de este libro a modelos de regresión uniecuacionales. En tales modelos, 
una variable (la variable dependiente Y) se expresa como función lineal de una o más variables 
(las variables explicativas, las X). En tales modelos, un supuesto implícito es que la relación 
causa-efecto, de existir, entre Y y X es unidireccional: las variables explicativas son la causa y la 
variable dependiente es el efecto. 

Sin embargo, hay situaciones en las cuales existe una influencia bidireccional entre las varia- 
bles económicas; es decir, una variable económica afecta otra(s) variable(s) económica(s) y, a su 
vez, se ve afectada por ella(s). Así, en la regresión del dinero M sobre la tasa de interés r, la me- 
todología uniecuacional supone implícitamente que la tasa de interés es fija (por ejemplo, por el 
Sistema de la Reserva Federal) y trata de encontrar la respuesta del dinero demandado a cambios 
en el nivel de la tasa de interés. Pero, ¿qué sucede si la tasa de interés depende de la demanda de 
dinero? En este caso, el análisis de regresión condicional en este libro, hasta el momento, quizá 
no sea apropiado porque ahora M depende de r y r depende de M. Por tanto, es preciso conside- 
rar dos ecuaciones, una que relaciona M con r y otra que relaciona r con M. Y esto conduce a la 
consideración de los modelos de ecuaciones simultáneas, modelos en los cuales hay más de una 
ecuación de regresión, una por cada variable interdependiente. 

En la parte 4 presentamos una introducción muy elemental y casi heurística al complejo tema 
de modelos de ecuaciones simultáneas, y dejamos los detalles para las referencias. 

En el capítulo 18 ofrecemos diversos ejemplos de modelos de ecuaciones simultáneas y vere- 
mos por qué el método de mínimos cuadrados ordinarios, considerado antes, es inaplicable para 
estimar los parámetros de cada ecuación del modelo. 

En el capítulo 19 consideraremos el problema de identificación. Si en un sistema de ecua- 
ciones simultáneas con dos o más ecuaciones no es posible obtener valores numéricos de cada 
parámetro en cada ecuación porque las ecuaciones son observacionalmente no distinguibles, o 
se parecen mucho entre sí, tenemos el problema de identificación. Así, en la regresión de la 
cantidad O sobre el precio P, ¿es la ecuación resultante una función de demanda o una función 
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de oferta, pues O y P forman parte de las dos funciones? Por consiguiente, si sólo tenemos 
información sobre O y P, y no hay otra información, será difícil, si no imposible, identificar la 
regresión como función de demanda o función de oferta. Es indispensable resolver el problema 
de identificación antes de proceder a la estimación, pues no saber lo que se estima hace que 
la estimación misma carezca de sentido. En el capítulo 19 se ofrecen diversos métodos para re- 
solver el problema de la identificación. 

En el capítulo 20 consideraremos diversos métodos de estimación diseñados específicamente 
para estimar los modelos de ecuaciones simultáneas, así como sus cualidades y limitaciones. 


Capítulo l O 


Modelos de ecuaciones 
simultáneas 


En este capítulo y en los dos siguientes analizaremos los modelos de ecuaciones simultáneas. 
En particular, observaremos sus características especiales, su estimación y algunos problemas 
estadísticos relacionados con ellos. 


18.1 Naturaleza de los modelos de ecuaciones 
simultáneas 


En las partes 1 a 3 de este texto tratamos exclusivamente con modelos uniecuacionales, es decir, 
modelos en los cuales había una sola variable dependiente Y y una o más variables explicativas, 
las X. En tales modelos nos centramos en la estimación y/o la predicción del valor medio de Y 
condicional a los valores fijos de las variables X. Por consiguiente, la relación causa-efecto en 
esos modelos iba de las Xa Y. 

Pero en muchas situaciones la relación causa-efecto en un sentido, o unidireccional, no es rele- 
vante. Esto sucede cuando Y está determinada por las X y algunas X, a su vez, están determinadas 
por Y. En otras palabras, hay una relación en dos sentidos, o simultánea, entre Y y (algunas) X, 
que hace dudar del valor de la distinción entre variables dependientes y explicativas. Es mejor 
reunir un conjunto de variables que se determinen simultáneamente mediante el conjunto restante 
de variables: justo lo que se hace en los modelos de ecuaciones simultáneas. En tales modelos 
hay más de una ecuación: una para cada una de las variables mutuamente, o conjuntamente, 
dependientes o endógenas.' Y, a diferencia de los modelos uniecuacionales, en los modelos de 
ecuaciones simultáneas no es posible estimar los parámetros de una ecuación aisladamente sin 
tener en cuenta la información proporcionada por las demás ecuaciones en el sistema. 

¿Qué sucede si los parámetros de cada ecuación se estiman, por ejemplo, mediante el método 
de MCO, sin considerar las demás ecuaciones del sistema? Recuerde que un supuesto crucial 
del método de MCO es que las variables explicativas X son no estocásticas o, si lo son (aleato- 
rias), están distribuidas independientemente del término de perturbación estocástico. Si ninguna 
de estas condiciones se cumple, entonces, como veremos más adelante, los estimadores de mí- 
nimos cuadrados no sólo son sesgados, sino también inconsistentes; es decir, a medida que el 


1 En el contexto de los modelos de ecuaciones simultáneas, las variables conjuntamente dependientes se de- 
nominan variables endógenas, y las variables realmente no estocásticas o que pueden considerarse como 
tales, variables exógenas o predeterminadas. (Veremos más al respecto en el capítulo 19.) 


674 Parte Cuatro Modelos de ecuaciones simultáneas y econometria de series de tiempo 


tamaño de la muestra aumenta indefinidamente, los estimadores no convergen hacia sus verdade- 
ros valores (poblacionales). Así, en el siguiente sistema hipotético de ecuaciones,? 


Yu = Bio + BuYa + 1141 + ui (18.1.1) 
Yo; = Pa + B21 Yu + 1141 + uz; (18.1.2) 


donde Yı y Y son variables mutuamente dependientes, o endógenas, X¡, una variable exógena, 
y u1 y u, los términos de perturbación estocástica, ambas variables Y, y Y, son estocásticas. Por 
consiguiente, a menos que se demuestre que la variable explicativa estocástica Y, en (18.1.1) está 
distribuida independientemente de uı y que la variable explicativa estocástica Y, en (18.1.2) 
está distribuida independientemente de u2, la aplicación de MCO clásicos a estas ecuaciones 
generará estimaciones inconsistentes. 

En lo que resta de este capítulo daremos ejemplos de modelos de ecuaciones simultáneas y 
mostraremos el sesgo en la aplicación directa del método de mínimos cuadrados a tales modelos. 
Después de analizar el denominado problema de identificación en el capítulo 19, en el 20 estudia- 
remos algunos métodos especiales para manejar los modelos de ecuaciones simultáneas. 


13.2 Ejemplos de modelos de ecuaciones simultáneas 


EJEMPLO 18.1 
Modelo de demanda 


y oferta 


Como es bien sabido, el precio P de un bien y la cantidad vendida Q están determinados por el 
intercepto de las curvas de demanda y oferta para ese bien. Así, si suponemos, por simplicidad, 
que las curvas de demanda y oferta son lineales y sumamos los términos de perturbación esto- 
cásticos uy y uz, las funciones empíricas de demanda y oferta se escriben como 


Función de demanda: Qs = 00 +01 Pt + Urt a <0 (18.2.1) 
Función de oferta: Q? = Bo + b1 Pt + Uzt B1>0 (18.2.2) 
Condición de equilibrio: Q! = Q; 


donde Q’ = cantidad demandada 
Q* = cantidad ofrecida 
t = tiempo 


y las æ y £ son los parámetros. A priori, se espera que a] sea negativa (curva de demanda con 


pendiente hacia abajo) y que $1 sea positiva (curva de oferta con pendiente hacia arriba). 

Ahora bien, no es muy difícil ver que P y Q son variables conjuntamente dependientes. Si, por 
ejemplo, u en (18.2.1) se modifica debido a cambios en otras variables que afectan a Qf (como 
ingreso, riqueza y gustos), la curva de demanda se desplaza hacia arriba si u¡¿ es positiva y hacia 
abajo si u¡¿ es negativa. Estos desplazamientos se muestran en la figura 18.1. 

Como muestra la figura, un desplazamiento en la curva de demanda cambia a P y a Q. 
En forma similar, un cambio en uz; (huelgas, clima, restricciones sobre las importaciones o las 
exportaciones, etc.) desplazará la curva de oferta, para afectar de nuevo a P y a Q. Debido a 
esta dependencia simultánea entre Q y P, uy: y P¿ en (18.2.1) y U2: y Pe en (18.2.2) no pueden 
ser independientes. Por consiguiente, una regresión de Q sobre P como en (18.2.1) violaría un 


supuesto importante del modelo clásico de regresión lineal, a saber, el de no correlación entre 


la(s) variable(s) explicativa(s) y el término de perturbación. 


2 Esta notación económica, aunque se explica por sí misma, se generalizará a más de dos ecuaciones en el 


capítulo 19. 


EJEMPLO 18.1 


(continuación) 
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FIGURA 18.1  Interdependencia entre precio y cantidad. 
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EJEMPLO 18.2 
Modelo keynesiano 
de determinación 
del ingreso 


Considere el modelo keynesiano simple de determinación del ingreso: 


Función consumo: Ci = Bo + B1 Yt + ut 0<ßı<1 (18.2.3) 
Identidad del ingreso: Mi= C E= S (18.2.4) 
donde C = gasto de consumo 
Y = ingreso 
I = inversión (se supone exógena) 
S = ahorro 
t = tiempo 


u = término de perturbación estocástico 
Bo y b1 = parámetros 


El parámetro f¡ se conoce como propensión marginal a consumir (PMC) (la cantidad de gasto 
de consumo extra resultante de un dólar extra de ingreso). Conforme a la teoría económica, se 
espera que £ se encuentre entre 0 y 1. La ecuación (18.2.3) es la función consumo (estocástica); 
y (18.2.4) es la identidad del ingreso nacional, que significa que el ingreso total es igual al gasto 


(continúa) 
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EJEMPLO 18.2 de consumo total más el gasto de inversión total, en el entendido de que el gasto de inversión 
(continuación) total es igual al ahorro total. En la figura 18.2 se muestra la gráfica. 
De la función consumo postulada y de la figura 18.2, es claro que C y Y son interdependientes 
y que no se espera que Y; en (18.2.3) sea independiente del término de perturbación, porque 
cuando ur se desplaza (debido a diversos factores dentro del término de error), la función con- 
sumo también se desplaza, la cual a su vez afecta a Y;. Por consiguiente, una vez más, el método 
clásico de mínimos cuadrados no es aplicable a (18.2.3). De aplicarse, los estimadores obtenidos 
de dicho método serán inconsistentes, como veremos más adelante. 


FIGURA 18.2 CI 
Modelo keynesiano 
de determinación del 
ingreso. 
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EJEMPLO 18.3 Considere el siguiente modelo tipo Phillips de determinación de salarios monetarios y precios: 
Modelos de salario- E i 

A Wi = 0% + &1UNt + æ2 Pt + Urt (18.2.5) 
precio 
P = Bo + b1 Wt + B2Rt + B3 Mt + uzt (18.2.6) 
donde W = tasa de cambio de los salarios monetarios 


UN = tasa de desempleo, % 
P = tasa de cambio de los precios 
R = tasa de cambio del costo de capital 
M = tasa de cambio del precio de las materias primas importadas 
t = tiempo 
uy, U2 = perturbaciones estocásticas 


Como la variable precio P entra en la ecuación de salarios y la variable salarios W entra en 
la ecuación de precios, las dos variables son conjuntamente dependientes. Por consiguiente, 
se espera que estas variables explicativas estocásticas estén correlacionadas con las perturbacio- 
nes estocásticas pertinentes, por lo que, una vez más, el método clásico de MCO no es inaplica- 
ble para estimar individualmente los parámetros de las dos ecuaciones. 
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EJEMPLO 18.4 


El modelo IS de 
macroeconomía 


FIGURA 18.3 
Curva IS. 


El conocido modelo IS, o de equilibrio en el mercado de bienes, de la macroeconomía? en su 


forma no estocástica se expresa como 


Función consumo: Ce = Bo + B1Yar Oe <l (18.2.7) 
Función de impuestos: Tt = œo +07; 0O<aj] <1 (18.2.8) 
Función de inversión: lt = yo + yirt (18.2.9) 
Definición: Yat = Yt- Ti (18.2.10) 
Gasto del gobierno: 4 =6 (18.2.11) 
Identidad del ingreso nacional: Y. = Ct+ lẹlt+ Ge (18.2.12) 


donde Y = ingreso nacional 
C = gasto de consumo 
l = inversión neta planeada o deseada 
G = nivel dado de gasto del gobierno 
T = impuestos 
Ya = ingreso disponible 
r = tasa de interés 


Si sustituye (18.2.10) y (18.2.8) en (18.2.7) y también la ecuación resultante por C, así como 
las ecuaciones (18.2.9) y (18.2.11) en (18.2.12), debe obtener la ecuación IS: 


Ye = To + 71r (18.2.13) 
> G 
T ere BO COCO 
E i) 
i (18.2.14) 
m = A 
"T-A =a) 


La ecuación (18.2.13) es la ecuación de IS, o de equilibrio en el mercado de bienes, es decir, 
da las combinaciones de tasa de interés y de nivel de ingreso de modo que el mercado de bienes 
se despeja o está en equilibrio. Geométricamente, la curva IS se muestra en la figura 18.3. 


Tasa de interés 


IS 


Ingreso 


(continúa) 


3 “El esquema de equilibrio en el mercado de bienes, o esquema IS, muestra combinaciones de tasas de inte- 
rés y de niveles de producto tales que el gasto planeado iguala al ingreso.” Véase Rudiger Dornbusch y Stan- 
ley Fischer, Macroeconomics, 3a. ed., McGraw-Hill, Nueva York, 1984, p. 102. Observe que, por simplicidad, 
supusimos que no existe el sector de comercio exterior. 
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EJEMPLO 18.4 


(continuación) 


¿Qué sucedería si estimamos, por ejemplo, la función consumo (18.2.7) en forma aislada? 
¿Obtendríamos estimaciones insesgadas y/o consistentes de fp y £1? Tal resultado no es pro- 
bable, pues el consumo depende del ingreso disponible, el cual depende del ingreso nacional 
Y, que a su vez depende de r y G, como también de otros parámetros que entran en zo. Por 
consiguiente, a menos que consideremos todas estas influencias, es probable que una simple 
regresión de C sobre Yy produzca estimaciones sesgadas y/o inconsistentes de Bo y 61. 


EJEMPLO 18.5 
Modelo LM 


FIGURA 18.4 
Curva LM. 


La otra mitad del famoso paradigma IS-LM es el LM, o relación de equilibrio en el mercado mo- 
netario, que da las combinaciones de tasa de interés y nivel de ingreso de modo que se despeje 
el mercado monetario, es decir, que la demanda de dinero sea igual a su oferta. Algebraica- 
mente, el modelo, en la forma no estocástica, se expresa como: 


Función de demanda de dineron: Mi = O + DY; = cre (18.2.15) 
Función de oferta de dinero: M¿= M (18.2.16) 
Condición de equilibrio: Mi = Mj (18.2.17) 


donde Y = ingreso, r = tasa de interés y M = nivel supuesto de oferta monetaria, por ejemplo, 
el determinado por el Banco de la Reserva Federal. 

Al igualar las funciones de demanda y oferta de dinero, y simplificar, obtenemos la ecuación 
LM: 


Yi = ào + à1 M + dor; (18.2.18) 
donde 
ào = —a/b 
du = 1/b (18.2.19) 
Aa = c/b 


Para un M= M dado, la curva LM que representa la relación (18.2.18) es como se muestra 
en la figura 18.4. 

Las curvas IS y LM muestran que un ordenamiento completo de tasas de interés es consis- 
tente con el equilibrio en el mercado de bienes, y un ordenamiento completo de tasas de interés 
es compatible con el equilibrio en el mercado monetario. Desde luego, sólo una tasa de interés y 
un nivel de ingreso serán consistentes al mismo tiempo con los dos equilibrios. Para obtenerlos, 
sólo se necesita igualar (18.2.13) y (18.2.18). En el ejercicio 18.4 se le pide mostrar el nivel de 
la tasa de interés y del ingreso simultáneamente compatible con el equilibrio en los mercados 
de bienes y de dinero. 


LM(M =M) 


Tasa de interés 


Ingreso 
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EJEMPLO 18.6 Los modelos de ecuaciones simultáneas son muy comunes para elaborar modelos economé- 
Modelos economé- tricos a cargo de diversos econometristas. Un pionero en este campo fue el profesor Lawrence 
Klein, de la Wharton School, Universidad de Pensilvania. Su modelo inicial, conocido como 


ACOS modelo 1 de Klein, es el siguiente: 
Función consumo: Ci = Bo + B1 Pt + Ba(W + We + B3 Pt-1 + Urt 
Función de inversión: le = B4 + Bs Pt + Be Pt-1 + B7Ki1 + Uzt 


Demanda de trabajo: W: = Bg + Bo(Y + T — W>; 
+ Br0(Y +71 —= Wai + Brit+ Ue 


(18.2.20) 
Identidad: Ye + To = Ctt let Ge 
Identidad: Ye = WE + Wi + Pi 
Identidad: Ki= Kia + le 
donde C= gasto de consumo 


l= gasto de inversión 
G = gasto del gobierno 
P = utilidades 
W = nómina del sector privado 
W’ = nómina del gobierno 
K= existencias de capital 
T = impuestos 
Y = ingreso después de impuestos 
t = tiempo 
ur, U2 y u3 = perturbaciones estocásticas* 


En el modelo anterior, las variables C, I, W, Y, P y K se consideran variables conjuntamente 
dependientes o endógenas, y las variables P1, Ke1 y Yea, predeterminadas.* En total hay seis 
ecuaciones (con las tres identidades) para estudiar la interdependencia de las seis variables en- 
dógenas. 

En el capítulo 20 veremos la forma de estimar tales modelos econométricos. Por el momento, 
observe que, debido a la interdependencia entre las variables endógenas, en general no son 
independientes de los términos de perturbación estocásticos, lo cual, por consiguiente, hace 
que no sea adecuada la aplicación del método de MCO a una ecuación individual en el sistema. 
Como se ve en la sección 18.3, los estimadores así obtenidos son inconsistentes; no convergen a 
sus verdaderos valores poblacionales aunque el tamaño de la muestra sea muy grande. 


18.3 Sesgo en las ecuaciones simultáneas: 
inconsistencia de los estimadores de MCO 


Como ya planteamos, el método de mínimos cuadrados no aplica para estimar una sola ecuación 
enlazada a un sistema de ecuaciones simultáneas si una o más de las variables explicativas están 
correlacionadas con el término de perturbación en esa ecuación, porque los estimadores así obte- 
nidos son inconsistentes. Para mostrar esto, considere de nuevo el modelo keynesiano simple de 


4 L.R. Klein, Economic Fluctuations in the United States, 1921-1941, John Wiley & Sons, Nueva York, 1950. 

5 El constructor de modelos debe especificar las variables endógenas y predeterminadas del modelo. K;_, y 
Y,_1 son predeterminadas porque, en el tiempo t, sus valores son conocidos. (Veremos más sobre esto en el 
capítulo 19.) 
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determinación del ingreso del ejemplo 18.2. Suponga que deseamos estimar los parámetros de la 
función consumo (18.2.3). Si suponemos que E(u) = 0, E(u?) = 07, E(um;j) = 0 (para j £ 0) 
y cov(1,, u) = 0, que son los supuestos del MCRL, demostramos primero que Y, y u, en (18.2.3) 
están correlacionados y luego probamos que $, es un estimador inconsistente de £1. 

Para probar que Y, y u, están correlacionados, procedemos de la siguiente manera. Sustituya 
(18.2.3) en (18.2.4) para obtener 


Y, = bo + BY, +u +1, 
es decir, 


Bo 1 1 


Y= L 
isn len e 


(18.3.1) 


Ahora 


1 
h g ly (18.3.2) 


L= pr T= f 
donde aprovechamos que E(u) = 0 y que, como /, es exógeno o predeterminado (porque su valor 
se fijó con anterioridad), tiene como valor esperado /,. 
Por consiguiente, al restar (18.3.2) de (18.3.1), resulta 


E(Y,) = 


Ur 


Y, — E(Y) = En (18.3.3) 
Además, 
U, — Elu,) = u, (¿Por qué?) (18.3.4) 
de donde 
cov(Y,, 41) = ELY, — E(Y) lu, — E(u:)] 
Equ?) 
= A con (18.3.3) y (18.3.4) (18.3.5) 
g 
“IZA 


Como o? se supuso positivo (¿por qué?), la covarianza entre Y y u dada en (18.3.5) tiende a ser 
diferente de cero. Como resultado se espera que Y, y u, en (18.2.3) estén correlacionadas, lo cual 
viola el supuesto del modelo clásico de regresión lineal respecto de que las perturbaciones son 
independientes o por lo menos no están correlacionadas con las variables explicativas. Como ya 
mencionamos, los estimadores de MCO en esta situación son inconsistentes. 

Para mostrar que el estimador de MCO Br es un estimador inconsistente de £; debido a la 
correlación entre Y, y us procedemos de la siguiente manera: 


_ EC 0107) 
X=Y) 

— Y cyi 

YEN 

= X Cy, 

O Dy 


Êi 


(18.3.6) 


é Será mayor que cero siempre que By, la PMC, se encuentre entre O y 1; y será negativa si $; es mayor que 
la unidad. Desde luego, un valor de PMC mayor que la unidad no tendría mucho sentido económico. En 
realidad, se espera que la covarianza entre Y, y us sea positiva. 
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donde las letras minúsculas, como es usual, indican desviaciones de la media (muestras). Al sus- 
tituir por C; de (18.2.3), obtenemos 


= Y (bo + B1Y, + uy, 
Ny 


(18.3.7) 


donde, en el último paso, aprovechamos que >” y; = 0 y (X Y,y,/». y?) = 1 (¿por qué?). 
Si tomamos el valor esperado de (18.3.7) en ambos lados, obtenemos 


E(B) =b +E [| (18.3.8) 


Por desgracia, no podemos evaluar E)” y,u,¿/ Y. y?) porque el operador de valor esperado es 
un operador lineal. [Vota: E(4/B) 4 E(4)/E(B).] Pero, por intuición, debe quedar claro que, a 
menos que el término (` y,u,/ Y. y?) sea cero, Êi es un estimador sesgado de £. Pero, ¿no de- 
mostramos en (18.3.5) que la covarianza entre Y y u es diferente de cero y que, por consiguiente, 
Ê no estaría sesgado? La respuesta es no del todo, pues cov(Y,, u), un concepto poblacional, no 
equivale exactamente a Y” y,u,, que es una medición muestral, aunque, a medida que el tamaño 
de la muestra aumenta indefinidamente, el último tenderá hacia el primero. Pero si el tamaño de 
la muestra aumenta indefinidamente, entonces podemos recurrirse al concepto de estimador con- 
sistente y averiguar qué sucede con $; a medida que n, el tamaño de la muestra, aumenta inde- 
finidamente. En resumen, cuando no podemos evaluar explícitamente el valor esperado de un 
estimador, como ocurrió en (18.3.8), podemos centrar la atención hacia su comportamiento en 
una muestra grande. 

Ahora bien, se dice que un estimador es consistente si el límite de su probabilidad,” o plím 
para abreviar, es igual a su verdadero valor (poblacional). Por consiguiente, para demostrar que 
Êi de (18.3.7) es inconsistente, debemos demostrar que su plim no es igual al verdadero £. Al 
aplicar las reglas de límite de probabilidad a (18.3.7), obtenemos? 


Ez) 
Ny 


plim($1) = plim (£1) + plím ( 


= plim (£1) + plim (zar) (18.3.9) 
n plim (X yru /n) 
plím (X y/n) 


donde, en el segundo paso, dividimos )” y,u, y X- y? entre el número total de observaciones en la 
muestra, n, de manera que las cantidades en los paréntesis son ahora la covarianza muestral entre 
Y y u, y la varianza muestral de Y, respectivamente. Ñ 

En palabras, (18.3.9) establece que el límite de probabilidad de f¡ es igual al verdadero £; 
más la razón del plim de la covarianza muestral entre Y y u respecto del plim de la varianza 
muestral de Y. Ahora, a medida que el tamaño n de la muestra aumenta indefinidamente, se es- 
peraría que la covarianza muestral entre Y y u se aproxime a la verdadera covarianza poblacional 
E[Y, — E(Y)][u, — E(u)], la cual, de (18.3.5), es igual a [o?/(1 — $1)]. En forma similar, a me- 


7 En el apéndice A definimos el límite de probabilidad. 


8 Como afirmamos en el apéndice A, el plim de una constante (por ejemplo, £1) es la constante misma, y 
el plim de (A/B) = plim(4)/plim(B). Observe, sin embargo, que E(A/B) + E(4)/E(B). 


682 


Parte Cuatro Modelos de ecuaciones simultáneas y econometría de series de tiempo 


dida que n tiende a infinito, la varianza muestral de Y se aproxima a su varianza poblacional, es 
decir, o. Por consiguiente, la ecuación (18.3.9) puede escribirse como 
2 
o*/(1— Bi) 


plim(B1) = Bi + > 
Oy 


=p +, 1 (5) 
Eá =Bi o? 


Como 0 < i < 1 y o°, y 0? son positivas, es obvio, de la ecuación (18.3.10), que plím 
(ÊD será siempre mayor que $; es decir, Êi sobreestimará al verdadero $,.? En otras palabras, Bi 
es un estimador sesgado, y no importa lo grande del tamaño de la muestra, el sesgo no desapa- 
recerá. 


(18.3.10) 


18.4 Sesgo de las ecuaciones simultáneas: ejemplo numérico 


Para demostrar algunos puntos planteados en la sección anterior, considere de nuevo el modelo 
keynesiano simple de determinación del ingreso dado en el ejemplo 18.2 y efectúe el siguiente 
estudio de Monte Carlo.!? Suponga que los valores de la inversión I son como se muestran en la 
columna (3) de la tabla 18.1, y además que 


E(u)=0 


E(uur+;) =0 G #0) 
var (u,) = 0? = 0.04 
cov (ur, [,) =0 


Los u, así generados se muestran en la columna (4). 

Para la función consumo (18.2.3) suponga que se conocen los valores de los verdaderos pará- 
metros y son fo = 2 y $] = 0.8. 

De los valores supuestos de Bo y £1 y de los valores generados de u, podemos generar los va- 
lores del ingreso Y, de (18.3.1), los cuales se muestran en la columna (1) de la tabla 18.1. Una vez 
conocidos los Y, y al conocer fp, 61 y un podemos generar fácilmente los valores de consumo C; 
de (18.2.3). Los C así generados están en la columna 2. 

Como se conocen los verdaderos Bo y £1 y los errores muestrales son exactamente los mismos 
que los “verdaderos” (debido a la forma en que se diseñó el estudio Monte Carlo), si utilizamos 
la información de la tabla 18.1 para hacer la regresión de C; sobre Y, debemos obtener bọ = 2 y 
B1 = 0.8, si los MCO fueran insesgados. Pero, de (18.3.7), sabemos que éste no será el caso si 
la regresora Y, y la perturbación u, están correlacionadas. Ahora no es muy difícil verificar, de la 
información disponible, que la covarianza (muestral) entre Y, y u, es XC yrun = 3.8 y que Y. y? = 
184. Entonces, como indica (18.3.7), debemos tener 


Y yu, 

Ey 

3.8 (18.4.1) 
DR 

T 184 


= 0.82065 


Êi = bı + 


Es decir, Ê está sesgado hacia arriba por 0.02065. 


? En general, sin embargo, la dirección del sesgo depende de la estructura del modelo particular y de los ver- 
daderos valores de los coeficientes de la regresión. 

10 Tomado de Kenneth J. White, Nancy G. Horsman y Justin B. Wyatt, SHAZAM: Computer Handbook for 
Econometric for Use with Basic Econometrics, McGraw-Hill, Nueva York, pp. 131-134. 


TABLA 18.1 
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Y: Ci h ut 
(1) (2) (€) (4) 
18.15697 16.15697 2.0 —0.3686055 
19.59980 17.59980 2.0 —0.8004084E-01 
21.93468 19.73468 2.2 0.1869357 
21.55145 19.35145 2.2 0.1102906 
21.88427 19.48427 2.4 —0.2314535E-01 
22.42648 20.02648 2.4 0.8529544E-01 
25.40940 22.80940 2.6 0.4818807 
22.69523 20.09523 2.6 —0.6095481E-01 
24.36465 21.56465 2.8 0.7292983E-01 
24.39334 21.59334 2.8 0.7866819E-01 
24.09215 21.09215 3.0 —0.1815703 
24.87450 21.87450 3.0 —0.2509900E-01 
25.31580 22.11580 302 —0.1368398 
26.30465 23.10465 3.2 0.6092946E-01 
25.78235 22.38235 3.4 —0.2435298 
26.08018 22.68018 3.4 —0.1839638 
27.24440 23.64440 3.6 —0.1511200 
28.00963 24.40963 3.6 0.1926739E-02 
30.89301 27.09301 3.8 0.3786015 
28.98706 25.18706 3.8 —0.2588852E-02 


Fuente: Kenneth J. White, Nancy G. Horsman y Justin B. Wyatt, SHAZAM Computer Handbook for Econometrics for Use with Damodar 
Gujarati: Basic Econometrics, septiembre, 1985, p. 132. 


Ahora efectuemos la regresión de C; sobre Y, con la información de la tabla 18.1; los resulta- 
dos de la regresión son 


Ĉ, = 1.4940 +  0.82065Y, 
ee = (0.35413) (0.01434) (18.4.2) 
t = (4.2188) (57.209) R? = 0.9945 


Como se esperaba, la £; estimada es precisamente la predicha por (18.4.1). A propósito, observe 
que la o estimada también está sesgada. 

En general, el valor del sesgo en Êi depende de 61, 0? y var(Y), y, en particular, del grado de 
la covarianza entre Y y u.* Como afirman Kenneth White et al., “en esto consiste el sesgo de las 
ecuaciones simultáneas. En contraste con los modelos uniecuacionales, ya no podemos seguir 
suponiendo que las variables del lado derecho de la ecuación no están correlacionadas con el 
término de error”.!? Tenga en cuenta que este sesgo permanece aun en muestras grandes. 

En vista de las consecuencias potencialmente graves de la aplicación del MCO a los modelos 
de ecuaciones simultáneas, ¿existe una prueba de simultaneidad que indique si en un momento 
dado se tiene un problema de simultaneidad? Una versión de la prueba de especificación de 
Hausman sirve para este propósito, y la analizaremos en el capítulo 19. 


11 Véase la ecuación (18.3.5). 
12 Op. cit., pp. 133-134. 
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Resumen y 1. En contraste con los modelos uniecuacionales, los de ecuaciones simultáneas contienen más 
de una variable dependiente, o endógena, lo cual requiere un número de ecuaciones igual al 
número de variables endógenas. 

2. Una característica única de los modelos de ecuaciones simultáneas es que la variable endó- 
gena (es decir, la variable regresada) en una ecuación puede aparecer como variable explica- 
tiva (es decir, como regresora) en otra ecuación del sistema. 

3. Como consecuencia, tal variable explicativa endógena se convierte en estocástica y suele 
estar correlacionada con el término de perturbación de la ecuación en la cual aparece como 
variable explicativa. 

4. En esta situación no es aplicable el método clásico de MCO porque los estimadores así obte- 
nidos no son consistentes, es decir, no convergen hacia sus verdaderos valores poblacionales 
sin importar qué tan grande sea la muestra. 

5. El ejemplo de Monte Carlo presentado en el texto muestra la naturaleza del sesgo contenido 
en la aplicación de MCO para estimar los parámetros de una ecuación de regresión, en la cual 
la regresora está correlacionada con el término de perturbación, que es el caso habitual en los 
modelos de ecuaciones simultáneas. 

6. Como los modelos de ecuaciones simultáneas son frecuentes, sobre todo en los modelos eco- 
nométricos, diversos autores han desarrollado técnicas alternas de estimación. Las analizare- 
mos en el capítulo 20, después del problema de identificación en el capítulo 19, tema que 
lógicamente es previo a la estimación. 


conclusiones 


EJERCICIOS Preguntas 

18.1. Elabore un modelo de ecuaciones simultáneas para la oferta y la demanda de odontólogos 
en Estados Unidos. Especifique las variables endógenas y exógenas en el modelo. 

18.2. Elabore un modelo simple de la demanda y la oferta de dinero en Estados Unidos, y com- 
párelo con los de K. Brunner y A. H. Meltzer,* y R. Tiegen.? 

18.3. a) Para el modelo de demanda y oferta del ejemplo 18.1, obtenga la expresión para el 

límite de probabilidad de â;. 

b) ¿En qué condiciones este límite de probabilidad será igual al verdadero o]? 


18.4. Para el modelo IS-LM analizado en el texto, encuentre los niveles de tasa de interés y 
de ingreso simultáneamente compatibles con el equilibrio del mercado de bienes y de 
dinero. 


18.5. Para estudiar la relación entre la inflación y el rendimiento de las acciones comunes, 
Bruno Oudet' utilizó el siguiente modelo: 


Ry = 01 + 09Ry + 03Rp1-1 + 014L, + 05Y, + 06NÍS, + 071, + Uy, 
Rs = B1 + BoRor + B3Ror1 + BaL; + BsY, + B6NIS; + B7E; + uo, 


* “Some Further Evidence on Supply and Demand Functions for Money”, Journal of Finance, vol. 19, mayo 
de 1964, pp. 240-283. 


t “Demand and Supply Functions for Money in the United States”, Econometrica, vol. 32, núm. 4, octubre de 
1964, pp. 476-509. 

t Bruno A. Oudet, “The Variation of the Return on Stocks in Periods of Inflation”, Journal of Financial and 
Quantitative Analysis, vol. 8, núm. 2, marzo de 1973, pp. 247-258. 
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donde ZL = base monetaria real per cápita 
Y = ingreso real per cápita 
I= tasa de inflación esperada 
NIS = variable de una nueva emisión 
E = rendimientos esperados de acciones a fin de periodo, representados por 
razones de precios de acciones rezagadas 
Rp = rendimiento de los bonos 
Rs, = rendimiento de las acciones comunes 


a) Presente una justificación teórica para este modelo y vea si su razonamiento coincide 
con el de Oudet. 

b) ¿Cuáles son las variables endógenas del modelo? ¿Y las exógenas? 

c) ¿Cómo consideraría las Ry, rezagadas endógenas o exógenas? 


18.6. En su artículo, “Un modelo de distribución de productos de uso personal de marca en 
Jamaica”,* John U. Farley y Harold J. Levitt desarrollaron el siguiente modelo (los pro- 
ductos de uso personal fueron crema de afeitar, crema para la piel, pañales desechables y 
crema dental): 


Yi; =01 + 1 Yz: + BaY3; + B3Ya + Uii 

Yo; = 2 + P4 Yii + BsYsi + NA + VA + Mo; 
Ya; =03 + BoXo; + Y3A3; + Uzi 

Ya; = 04 + BIYo + y4X4i + U4i 

Ysi = 05 + s Yzi + Bo Yi + PioY4i + usi 


donde Y, = porcentaje de tiendas que tienen existencias del producto 

Y, = unidades vendidas por mes 

Y, = índice de contacto directo con el importador y con el fabricante del pro- 
ducto 

Y, = índice de actividad de las ventas al mayoreo en el área 

Y; = índice de penetración de marca del producto en existencia (por ejemplo, nú- 
mero promedio de marcas de un mismo producto almacenado que mantienen 
las tiendas que ofrecen el producto en venta) 

Xı = población objetivo para el producto 

X = ingreso per cápita en la población donde se sitúa el área 

X3 = distancia del centro de gravedad poblacional a Kingston 

X4 = distancia del centro poblacional al pueblo mayorista más cercano 


a) ¿Puede identificar las variables endógenas y exógenas en el modelo anterior? 


b) ¿Puede estimar una o más ecuaciones en el modelo mediante el método de mínimos 
cuadrados? ¿Por qué? 


18.7. Para estudiar la relación entre el gasto en publicidad y las ventas de cigarrillos, Frank 
Bass utilizó el siguiente modelo:? 
Yi, =01 + P1 Yst + BaYa + UA + VX + Uy, 
Ya = &2 + B3Yy + BaYa + V3Xit + Y4X2: + Uz 
Y3, = 03 + BsY + BoY + Uy 
Ya, = 04 + PY + Bs Yar + Uas 


* Journal of Marketing Research, noviembre de 1968, pp. 362-368. 


t “A Simultaneous Equation Regression Study of Advertising and Sales of Cigarettes”, Journal of Marketing 
Research, vol. 6, agosto de 1969, pp. 291-300. 
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donde Y; = logaritmo de las ventas de cigarrillos con filtro (número de cigarrillos) divi- 
dido entre la población mayor de 20 años 
Y, = logaritmo de ventas de cigarrillos sin filtro (número de cigarrillos) dividido 
entre la población mayor de 20 años 
Y; = logaritmo del valor de la publicidad de cigarrillos con filtro en dólares divi- 
dido entre la población mayor de 20 años, dividido a su vez entre el índice de 
precios de la publicidad 
Y, = logaritmo del valor de la publicidad de cigarrillos sin filtro en dólares divi- 
dido entre la población mayor de 20 años, dividido a su vez entre el índice de 
precios de la publicidad 
X1 = logaritmo del ingreso personal disponible dividido entre la población mayor 
de 20 años, dividido a su vez entre el índice de precios al consumidor 
X = logaritmo del precio por paquete de cigarrillos sin filtro dividido entre el 
índice de precios al consumidor 
a) En el modelo anterior, las Y son endógenas y las X son exógenas. ¿Por qué supone el 
autor que X es exógena? 


b) Si X se considera una variable endógena, ¿cómo modificaría el modelo anterior? 


18.8. G. Menges desarrolló el siguiente modelo econométrico para la economía de Alemania 
Occidental: * 


Y, = Po + BiY:-1 + Pal, + uy 

I; = P3 + BaY, + PsO, + Uy 

C; = Bo + BrY, + BsC;-1 + BoP; + uz: 
Qr = Bio + 11 Qr-1 + Bi2 Ri + u4 


donde Y = ingreso nacional 
I = formación neta de capital 
C = consumo personal 
O = utilidades 
P = índice del costo de vida 
R = productividad industrial 
t = tiempo 
u = perturbaciones estocásticas 
a) ¿Qué variables consideraría endógenas y cuáles exógenas? 
b) ¿Hay alguna ecuación en el sistema que pueda estimarse mediante el método de mi- 
nimos cuadrados uniecuacional? 
c) ¿Cuál es la razón para incluir la variable P en la función consumo? 


18.9. L. E. Gallaway y P. E. Smith elaboraron un modelo simple para la economía de Estados 
Unidos, que es el siguiente:? 


A = Es =p ll ar Ey, 

C, = Bi + B2YD;_1 + 63M, + uy, 

L, = Ba + Bs(L-1 — Yi-2) + BoZi—1 + Ua 
G, = B7+ B3G,-1 + u3 


* G. Menges, “Ein Ökonometriches Modell der Bundesrepublik Deutschland (Vier Strukturgleichungen)”, 
1..O. Studien, vol. 5, 1959, pp. 1-22. 

t “A Quarterly Econometric Model of the United States”, Journal of American Statistical Association, vol. 56, 
1961, pp. 379-383. 
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donde Y = producto nacional bruto 

C = gasto de consumo personal 
I = inversión privada doméstica bruta 

G = gasto del gobierno más inversión extranjera neta 

YD = ingreso disponible, o después de impuestos 

M = oferta monetaria al principio del trimestre 

Z = Ingreso patrimonial antes de impuestos 
t = tiempo 

U1, U2 y uz = perturbaciones estocásticas 


Todas las variables están medidas en forma de primeras diferencias. 

Con base en la información trimestral de 1948 a 1957, los autores aplicaron el método 
de mínimos cuadrados a cada ecuación individualmente y obtuvieron los siguientes resul- 
tados: 


Ô, = 0.09 + 0.43YD,_1 + 0.23M, R = 023 
Í, =0.08 0a a r O  R?2=0.40 
G; =0.13+0.67G;_1 R? =0.42 
a) ¿Cómo justifica el uso del método de mínimos cuadrados uniecuacional en este 


caso? 
b) ¿Por qué los valores R? son relativamente bajos? 


Ejercicios empíricos 

18.10. En la tabla 18.2 se da la siguiente información sobre Y (producto interno bruto), C (gasto 
de consumo personal) e / (inversión privada doméstica bruta), en miles de millones de 
dólares de 1996, en Estados Unidos, de 1970 a 2006. Suponga que C está relacionada li- 
nealmente con Y como en el modelo keynesiano simple de determinación del ingreso del 
ejemplo 18.2. Obtenga estimaciones por MCO de los parámetros de la función consumo. 
Guarde los resultados para una revisión posterior, con los métodos desarrollados en el 
capítulo 20. 

18.11. Con la información del ejercicio 18.10, efectúe la regresión de la inversión doméstica 
bruta / sobre el PIB y guarde los resultados para examinarlos de nuevo en un capítulo 
posterior. 

18.12. Considere la identidad macroeconómica 


C+I=Y (= PIB) 
Igual que antes, suponga que 
Ci = po + iY, + u 
y, según el modelo acelerador de macroeconomía, sea 
l, = 00 + 01 (Y,— Y, 1) + vı 


donde u y v son los términos de error. Con la información del ejercicio 18.10, estime el 
modelo acelerador y guarde los resultados para un estudio posterior. 

18.13. Oferta y demanda de gasolina. La tabla 18.3, que se encuentra en el sitio web del libro 
de texto, presenta datos sobre algunas variables que determinaron la demanda y oferta 
de gasolina en Estados Unidos de enero de 1978 a agosto de 2002.* Las variables son 


* Estos datos se tomaron del sitio web de Stephen J. Schmidt, Econometrics, McGraw-Hill, Nueva York, 2005, 
www.mhhe.com/economics. 
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TABLA 18.2 Gasto de consumo personal, inversión privada doméstica bruta y PIB, Estados Unidos, 1970-2006 (miles de 
millones de dólares de 1996) 


Observación (E l y Observación C l y 
1970 2 451.9 427.1 3771.9 1989 4 675.0 926.2 6 981.4 
1971 2 545.5 475.7 3 898.6 1990 4 770.3 895.1 7112.5 
1972 2 701.3 532.1 4 105.0 1991 4 778.4 822.2 7 100.5 
1973 2 833.8 594.4 4 341.5 1992 4 934.8 889.0 7 336.6 
1974 2812.3 550.6 4 319.6 1993 5 099.8 968.3 7 532.7 
1975 2 876.9 453.1 4 311.2 1994 5 290.7 1 099.6 7 835.5 
1976 3 035.5 544.7 4 540.9 1995 5 433.5 1134.0 8 031.7 
1977 3 164.1 627.0 4 750.5 1996 5 619.4 1 234.3 8 328.9 
1978 3 303.1 702.6 5 015.0 1997 5 831.8 1 387.7 8 703.5 
1979 3 383.4 725.0 5 173.4 1998 6 125.8 1 524.1 9 066.9 
1980 3 374.1 645.3 5 161.7 1999 6 438.6 1 642.6 9 470.3 
1981 3 422.2 704.9 5 291.7 2000 6 739.4 1735.5 9817.0 
1982 3 470.3 606.0 5 189.3 2001 6 910.4 1 598.4 9 890.7 
1983 3 668.6 662.5 5 423.8 2002 7 099.3 1 557.1 10 048.8 
1984 3 863.3 857.7 5 813.6 2003 7 295.3 1 613.1 10 301.0 
1985 4 064.0 849.7 6 053.7 2004 7 561.4 1 770.2 10 675.8 
1986 4 228.9 843.9 6 263.6 2005 7 803.6 1 869.3 11 003.4 
1987 4 369.8 870.0 6 475.1 2006 8 044.1 1919.5 11 319.4 
1988 4 546.9 890.5 6 742.7 


Notas: C = gasto de consumo personal 
I= inversión privada doméstica bruta 
Y = producto interno bruto (PIB) 


Fuente: Economic Report of the President, 2001, tabla B-2, p. 276. 


pricegas (centavos por galón); quantgas (miles de barriles al día, sin plomo); persincome 

(ingreso personal, miles de millones de dólares); y ventas de automóviles (millones de 

automóviles al año). 

a) Elabore un modelo apropiado de oferta y demanda para el consumo de gasolina. 

b) ¿Qué variables del modelo de a) son endógenas y cuáles exógenas? 

c) Si estima las funciones de demanda y oferta que obtuvo por MCO, ¿los resultados 
serán confiables? ¿Por qué? 

d) Guarde las estimaciones de MCO de las funciones de demanda y oferta para otro 
ejercicio después de estudiar el capítulo 20. 


18.14. La tabla 18.4, que se encuentra en el sitio web del libro de texto, presenta datos ma- 
croeconómicos sobre diversas variables de la economía estadounidense para los perio- 
dos trimestrales de I-1951 a IV-2000.* Las variables son las siguientes: Year = fecha; 
Otr = trimestre; Realgdp = PIB real (miles de millones de dólares); Realcons = gasto 
de consumo real; Realinvs = inversión real del sector privado; Realgovt = gasto guber- 
namental real; Realdpi = ingreso personal disponible real; CPI_U = índice de precios 
al consumidor; M1 = existencia de dinero nominal; Tbilrate = promedio trimestral de 
la tasa de interés de los pagarés de la Tesorería a 90 días, a fin de mes; Pop = población, 
millones, interpolación de cifras a fin de año con tasa de crecimiento constante por tri- 
mestre; Infl = tasa de inflación (falta la primera observación); y Realint = tasa de interés 
real ex-post = Tbilrate-Infl (falta la primera observación). 

Con estos datos, formule un modelo macroeconómico sencillo de la economía estado- 
unidense. En el capítulo 20 se le pedirá estimar este modelo. 


* Estos datos provienen del Departamento de Comercio, Oficina de Análisis Económico de Estados Unidos, y 
de www.economagic.com, y se reproducen de William H. Greene, Econometric Analysis, 6a. ed., 2008, tabla 
F5.1, p. 1083. 


Capítulo l Q 


El problema de 


la identificación 


En este capítulo se considera la naturaleza y el significado del problema de la identificación, cuya 
esencia es la siguiente: recuerde el modelo de demanda y oferta presentado en la sección 18.2. 
Suponga que se tiene información de series de tiempo sobre Q y P solamente y que no hay datos 
adicionales (tales como el ingreso del consumidor, el precio prevaleciente en el periodo anterior 
y las condiciones del clima). El problema de la identificación consiste en buscar una respuesta a 
la siguiente pregunta: dada solamente la información sobre P y Q, ¿cómo se sabe si se está esti- 
mando la función de demanda o la función de oferta? O, dicho de otra manera, si se piensa que se 
está ajustando una función de demanda, ¿cómo se garantiza que, en realidad, se está estimando 
dicha función y no otra? 

Un momento de reflexión revelará que es necesario responder a la pregunta anterior antes 
de proceder a estimar los parámetros de la función de demanda. Para resolver el problema de la 
identificación, primero se introducen algunas notaciones y definiciones, y luego se ilustra dicho 
problema con diversos ejemplos. En seguida se establecen las reglas que pueden utilizarse para 
averiguar si una ecuación en un modelo de ecuaciones simultáneas está identificada, es decir, si 
en realidad se trata de la relación que se está estimando, bien sea la función de demanda, de oferta 
u otra cualquiera. 


19.1 Notación y definiciones 


Para facilitar la exposición, se introducen las siguientes notaciones y definiciones. 
El modelo general de M ecuaciones con M variables endógenas o conjuntamente dependientes 
puede escribirse como la ecuación (19.1.1): 


Yı = BY + Bi3 Yst + -++ + BimYmi 

+V Xi + VX + ++ Vik Xk + Uy 
Ya, = Pa Yir + bzs Yst +-+- + bom Ymi 

+y Xi + y2Xu + c+ yk Xk + ux 
Ya, = p31 Yir + b32 Yz +: + b3mYme 


+ y31Xir + YX + c+ Vk Xk + uz 


Yur = Bm Yu + Bm: + -++ + Bm, M-1Ym-1,t 
+ Y MAX + YmXu + + YukXKkı + um 
(19.1.1) 
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donde Y1, Y2, ..., Ym = M variables endógenas o conjuntamente dependientes 
X1, X, . . . , Xg = K variables predeterminadas (una de estas variables X puede tomar un 
valor unitario para dar cabida al término del intercepto en cada ecua- 
ción) 
U1, U2, . . . , Um = M perturbaciones estocásticas 
t=1,2,..., T= número total de observaciones 


B = coeficientes de las variables endógenas 
y = coeficientes de las variables predeterminadas 


Como se puede observar, no es preciso que todas y cada una de las variables aparezcan en cada 
ecuación. En efecto, como se muestra en la sección 19.2, para que una ecuación esté identifica- 
da no es indispensable que la totalidad de las variables aparezca en cada ecuación. 

En la ecuación (19.1.1) se observa que las variables que forman parte del modelo de ecua- 
ciones simultáneas son de dos tipos: endógenas, es decir, aquellas determinadas (cuyos valores 
están) dentro del modelo; y predeterminadas, es decir, aquellas determinadas (cuyos valores es- 
tán) fuera del modelo. Las variables endógenas se consideran estocásticas, en tanto que las pre- 
determinadas se consideran como no estocásticas. 

Las variables predeterminadas están divididas en dos categorías: exógenas, tanto actuales 
como rezagadas, y endógenas rezagadas. Así, Xı; es una variable exógena actual (del tiempo 
presente), mientras que Xıq—1) es una variable exógena rezagada, con un rezago de un intervalo 
de tiempo. Y(,_1, es una variable endógena rezagada con rezago de un intervalo de tiempo, pero, 
puesto que el valor de Yig—1) es conocido en el periodo actual f, ésta es considerada como no 
estocástica y, por tanto, es una variable predeterminada.' En resumen, las variables exógenas 
actuales y rezagadas y las endógenas rezagadas se consideran predeterminadas; sus valores no 
están determinados por el modelo en el periodo de tiempo actual. 

Corresponde al diseñador del modelo especificar cuáles variables son endógenas y cuáles son 
predeterminadas. Aunque las variables (no económicas), tales como la temperatura y la lluvia, 
son claramente exógenas o predeterminadas, el diseñador de modelos debe tener gran precaución 
al clasificar las variables económicas como endógenas o predeterminadas, debiendo defender la 
clasificación con argumentos teóricos a priori. No obstante, más adelante en el capítulo se pro- 
porciona una prueba estadística de exogeneidad. 

Las ecuaciones que aparecen en (19.1.1) se conocen como ecuaciones estructurales o de 
comportamiento, porque muestran la estructura (de un modelo económico) de una economía o 
del comportamiento de un agente económico (por ejemplo, un consumidor o un productor). Las 
y las y se conocen como parámetros o coeficientes estructurales. 

A partir de las ecuaciones estructurales se pueden resolver para las M variables endógenas, de- 
rivar las ecuaciones en forma reducida y los correspondientes coeficientes en forma reducida. 
Una ecuación en forma reducida es aquella que expresa únicamente una variable endógena 
en términos de las variables predeterminadas y las perturbaciones estocásticas. A modo de 
ilustración, puede considerarse el modelo keynesiano de determinación del ingreso presentado 
en el capítulo 18: 


Función de consumo: C, = Bo + B¡Y,+u, 0<£ßı<1 (18.2.3) 
Identidad del ingreso: Y; = C+ I, (18.2.4) 


En este modelo, C (consumo) y Y (ingreso) son las variables endógenas e / (gasto de inversión) es 
considerada como una variable exógena. Ambas ecuaciones son estructurales, siendo la ecuación 
(18.2.4) una identidad. Como es usual, se supone que la PMC £; se encuentra entre 0 y 1. 

Si la ecuación (18.2.3) es sustituida en la ecuación (18.2.4), mediante un reordenamiento 
algebraico simple se obtiene: 


Y, = To + Mii + w; (19.1.2) 


1 Se supone implícitamente aquí que las perturbaciones estocásticas, las u, no están serialmente correlacio- 
nadas. De no ser así, Y, _/ estaría correlacionada con el término de perturbación del periodo actual u; y, por 
tanto, no se podría tratar como predeterminada. 


Capítulo 19 El problema de la identificación 691 


en donde 

Mo = Bo 
l= Br 

MT, = l (19.1.3) 

-Tef o 

Ut 

We = 
1— £i 


La ecuación (19.1.2) es una ecuación en forma reducida; expresa la variable endógena Y sola- 
mente como función de la variable exógena / (o predeterminada) y del término de perturbación 
estocástica u. Ilo y IT, son los correspondientes coeficientes en forma reducida. Observe que 
estos coeficientes son combinaciones no lineales del (los) coeficiente(s) estructural(es). 

Al sustituir el valor de Y de la ecuación (19.1.2) en C de la ecuación (18.2.3), se obtiene otra 
ecuación en forma reducida: 


C, => + IL + w, (19.1.4) 
en donde 
e M= 
i i (19.1.5) 
ut 
w, = 
1— £i 


Los coeficientes en la forma reducida, tales como IT; y I, también se conocen como multi- 
plicadores de impacto o de corto plazo, porque miden el impacto inmediato sobre la variable 
endógena de un cambio unitario del valor de la variable exógena.? Si en el modelo keynesiano 
anterior se incrementa el gasto de inversión en 1 dólar, por ejemplo, y se supone que la PMC es 
de 0.8, entonces de la ecuación (19.1.3), se obtiene TI; = 5. Este resultado significa que el incre- 
mento de 1 dólar en la inversión (en el tiempo actual) producirá inmediatamente un incremento 
en el ingreso de 5 dólares, o sea, un aumento cinco veces mayor. En forma similar, bajo las con- 
diciones supuestas, la ecuación (19.1.5) muestra que TI; = 4, lo cual significa que un incremento 
de 1 dólar en el gasto de inversión conllevará de inmediato a un incremento de 4 dólares en el 
gasto de consumo. 

En el contexto de los modelos econométricos, ecuaciones tales como la (18.2.4) o O? = Q5 
(la cantidad demandada igual a la cantidad ofrecida) se conocen como condiciones de equilibrio. 
La identidad (18.2.4) establece que el ingreso agregado Y debe ser igual al consumo agregado (es 
decir, gastos de consumo más gastos de inversión). Cuando se alcanza este equilibrio, las varia- 
bles endógenas asumen sus valores de equilibrio.’ 

Observe una característica interesante de las ecuaciones en forma reducida. Puesto que sola- 
mente las variables predeterminadas y las perturbaciones estocásticas aparecen al lado derecho 
de estas ecuaciones, y puesto que se ha presumido que las variables predeterminadas no están co- 
rrelacionadas con los términos de perturbación, el método de MCO puede aplicarse para estimar 
los coeficientes de las ecuaciones en forma reducida (las IT). A partir de éstos se pueden estimar los 
coeficientes estructurales (las 8), como se muestra más adelante. Este procedimiento se cono- 
ce como mínimos cuadrados indirectos (MCI), y los coeficientes estructurales estimados se 
denominan estimaciones por MCI. 


2 En los modelos econométricos, las variables exógenas desempeñan un papel crucial. Con mucha frecuen- 
cia, esas variables están bajo el control directo del gobierno. Algunos ejemplos son la tasa de impuestos per- 
sonales y empresariales, los subsidios y los seguros de desempleo, etcétera. 


3 Para mayores detalles, véase Jan Kmenta, Elements of Econometrics, 2a. ed., Macmillan, Nueva York, 1986, 
pp. 723-731. 
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En el capítulo 20 se estudiará el método de MCI con mayor detalle. Mientras tanto, observe 
que puesto que los coeficientes en la forma reducida pueden estimarse mediante el método de 
MCO, y puesto que dichos coeficientes son combinaciones de los coeficientes estructurales, 
existe la posibilidad de que estos últimos puedan ser “recuperados” a partir de los coeficientes 
en la forma reducida, y es en la estimación de los parámetros estructurales donde se puede estar 
finalmente interesado. ¿Cómo se recuperan los coeficientes estructurales a partir de los coeficien- 
tes en la forma reducida? La respuesta se da en la sección 19.2 y contiene la esencia del problema 
de identificación. 


19.2 Problema de identificación 


El problema de identificación pretende establecer si las estimaciones numéricas de los paráme- 
tros de una ecuación estructural pueden obtenerse de los coeficientes en forma reducida estima- 
dos. Si puede hacerse, se dice que la ecuación particular está identificada; si no, se dice entonces 
que la ecuación bajo consideración está no identificada o subidentificada. 

Una ecuación identificada puede estar exactamente (o total o precisamente) identificada o so- 
breidentificada. Se dice que está exactamente identificada si pueden obtenerse valores numéricos 
únicos de los parámetros estructurales. Se dice que está sobreidentificada si puede obtenerse más 
de un valor numérico para algunos de los parámetros de las ecuaciones estructurales. Las circuns- 
tancias bajo las cuales puede ocurrir cada uno de los casos anteriores se indicarán en seguida. 

El problema de identificación surge porque diferentes conjuntos de coeficientes estructurales 
pueden ser compatibles con el mismo conjunto de información. En otras palabras, una ecuación 
en una forma reducida dada puede ser compatible con diferentes ecuaciones estructurales o con 
diferentes hipótesis (modelos), y puede ser dificil decir cuál hipótesis (modelo) particular se está 
investigando. En lo que resta de la sección se consideran diversos ejemplos para mostrar la natu- 
raleza del problema de identificación. 


Subidentificación 


Considere de nuevo el modelo de demanda y oferta (18.2.1) y (18.2.2), conjuntamente con la 
condición de mercado nivelado, o de equilibrio, según la cual la demanda es igual a la oferta. 
Mediante la condición de equilibrio se obtiene: 


do +01P, + uir = Bo + iP, + uz (19.2.1) 
Al resolver la ecuación (19.2.1) se obtiene el precio de equilibrio 
P, = Mo + v: (19.2.2) 
en donde 
M = 2T% (19.2.3) 
&i = Br 
p E (19.2.4) 
a= pi 


Al sustituir P, de la ecuación (19.2.2) en la ecuación (18.2.1) o (18.2.2), se obtiene la siguiente 
cantidad de equilibrio: 


O, = 1, +w a 
en donde 
n, = Bo — 2of1 (19.2.6) 
01 — fı 
mi PI (19.2.7) 


&ı — fı 


FIGURA 19.1 
Funciones hipotéticas de 
oferta y demanda y el pro- 
blema de la identificación. 
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A propósito, es necesario observar que los términos de error v, y w, son combinaciones linea- 
les de los términos de error originales u; y u2. 

Las ecuaciones (19.2.2) y (19.2.5) son ecuaciones en forma reducida. Ahora bien, el mo- 
delo de demanda y oferta contiene cuatro coeficientes estructurales œo, 1, Bo y B1, pero no hay 
una forma única de estimarlos. ¿Por qué? La respuesta se encuentra en los dos coeficientes en 
la forma reducida dados en las ecuaciones (19.2.3) y (19.2.6). Estos coeficientes contienen los 
cuatro parámetros estructurales, pero no hay forma de estimar las cuatro incógnitas estructurales 
a partir únicamente de dos coeficientes en forma reducida. En el álgebra de secundaria se decía 
que para estimar cuatro incógnitas se deben tener cuatro ecuaciones (independientes) y, en ge- 
neral, para estimar k incógnitas se deben tener k ecuaciones (independientes). A propósito, si se 
efectúa la regresión en forma reducida (19.2.2) y (19.2.5) se verá que no hay variables explicati- 
vas, sólo las constantes, y éstas simplemente darán los valores promedio de P y O (¿por qué?). 

Todo esto significa que, dada la información de series de tiempo sobre P (precio) y O (can- 
tidad) y ninguna información adicional, no hay forma de que el investigador pueda garantizar 
si está estimando la función de demanda o la función de oferta. Es decir, unos P, y O, dados 
representan simplemente el punto de intersección de las curvas apropiadas de demanda y oferta 
en razón de la condición de equilibrio de que la demanda sea igual a la oferta. Para ver esto con 
claridad, considere el diagrama de dispersión que aparece en la figura 19.1. 

La figura 19.14) muestra algunos puntos dispersos que relacionan O con P. Cada punto dis- 
perso representa la intersección de una curva de demanda y de oferta, como se muestra en la 
figura 19.15). Ahora considere un punto aislado como el que se muestra en la figura 19.1c). No 
hay forma de asegurar cuál de las curvas de demanda y oferta, entre toda la familia de curvas que 
aparece en ese panel, generó ese punto. Es claro que se requiere información adicional sobre la 
naturaleza de dichas curvas. Por ejemplo, si la curva de demanda se desplaza en el tiempo debido 


K ys 
P , o Y a 


Precio 
e. 
Precio 
Precio 


0 Cantidad Q (0) Cantidad Q 0 Cantidad E 
a) b) c) 
P 
2 2 
9 3] 
ES 2 
2 A 
i D 
> Q l 
(0) Cantidad 0 Cantidad 
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a cambios en el ingreso, en los gustos, etc., pero la de oferta permanece relativamente estable 
ante esos cambios, como se ilustra en la figura 19.1d), los puntos dispersos indican una curva 
de oferta. En esta situación, se dice que se ha identificado la curva de oferta. Mediante el mismo 
procedimiento, si la curva de oferta se desplaza en el tiempo debido a cambios en las condiciones 
climáticas (en el caso de bienes agrícolas) o debido a otros factores externos, pero la de demanda 
permanece relativamente estable, como se ilustra en la figura 19.1e), los puntos dispersos indican 
una curva de demanda. En este caso, se dice que la curva de demanda se ha identificado. 

Hay una forma alterna y posiblemente más ilustrativa de considerar el problema de la identi- 
ficación. Suponga que se multiplica la ecuación (18.2.1) por A(0 < à < 1) y la ecuación (18.2.2) 
por 1 — A para obtener las siguientes ecuaciones (nota: se eliminan aquí los superíndices de O): 


AO; = ào + 201 P, + 241, (19.2.8) 
(1—1)0, = (1 — 2)B0 + (1 — à)b1 P, + (1 — jua (19.2.9) 


Al sumar estas dos ecuaciones, se obtiene la siguiente combinación lineal de las ecuaciones ori- 
ginales de demanda y oferta: 


O, = Yo + yı P; + we (19.2.10) 
donde 
Yo = Ao + (1 — A)Bo 
yı = àa +(1—A)B1 (19.2.11) 
w, = 241, + (1 — A)Juz 


La ecuación (19.2.10) “falsa” o “híbrida”, a partir de la observación, no es distinguible de 
la ecuación (18.2.1) ni de la (18.2.2), porque éstas consideran las regresiones de O y de P. Por 
consiguiente, si se tiene información de series de tiempo sobre P y O solamente, cualquiera de 
las ecuaciones (18.2.1), (18.2.2) o (19.2.10) puede ser compatible con la misma información. En 
otras palabras, la misma información puede ser compatible con la “hipótesis” de las ecuaciones 
(18.2.1), (18.2.2) o (19.2.10), y no hay forma de decir cuál de éstas se está verificando. 

Para que una ecuación esté identificada, es decir, para que sus parámetros sean estimados, 
debe mostrarse que el conjunto dado de información no producirá una ecuación estructural que 
sea similar en apariencia a la ecuación en la cual se está interesado. Si se pretende estimar la 
función de demanda, se debe demostrar que la información dada no es consistente con la función 
de oferta ni con otro tipo de ecuación híbrida. 


Identificación precisa o exacta 


La razón por la cual no fue posible identificar las anteriores funciones de demanda o de oferta 
fue porque las mismas variables P y O están presentes en ambas funciones y no se dispone de 
información adicional, como la indicada en las figuras 19.1d o e. Pero suponga que se considera 
el siguiente modelo de demanda y oferta: 


Función de demanda: 0O,=0+0/P, + 01, + 41, a <0 0% >0 (19.2.12) 
Función de oferta: O, = Bo + 61 P; + uze B1>0 (19.2.13) 


donde / = ingreso del consumidor, una variable exógena, y todas las demás variables como se 
definieron anteriormente. 

Observe que la única diferencia entre el modelo anterior y el modelo original de demanda y 
oferta es que hay una variable adicional en la función de demanda, a saber, el ingreso. De la teoría 
económica de la demanda se sabe que el ingreso es, por lo general, un determinante importante 
de la demanda de la mayoría de bienes y servicios. Por consiguiente, su inclusión en la fun- 
ción de demanda proporcionará información adicional sobre el comportamiento del consumidor. 
Para la mayoría de los bienes se espera que el ingreso tenga un efecto positivo sobre el consumo 
(07 > 0). 
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Al utilizar el mecanismo de nivelación del mercado, cantidad demandada = cantidad ofrecida, 
se tiene: 


Qo + &ı P; +01, + uir = Bo + bi Pi + uz (19.2.14) 
Al resolver la ecuación (19.2.14), se obtiene el siguiente valor de equilibrio de P; 
P, = Io + IT, 7, + v (19.2.15) 
en donde los coeficientes en la forma reducida son 
Mo = Bo — %o 
1 — Br 
(19.2.16) 
02 
MT, =- 
a — Bi 
y 
Ut — Uy; 
P m 
a — Br 


Al sustituir el valor de equilibrio de P, en la función de demanda u oferta anterior, se obtiene la 
siguiente cantidad de equilibrio: 


O, = IT + 1131, +w: (19.2.17) 
en donde 
Mo = 01 bo — qn 
A (19.2.18) 
Br 
i => 
a — Bi 
y 


_ Quzu — piui 
' 01 Bi 

Puesto que las ecuaciones (19.2.15) y (19.2.17) son ecuaciones en forma reducida, puede 
aplicarse el método de MCO para estimar sus parámetros. Ahora bien, el modelo de demanda 
y oferta (19.2.12) y (19.2.13) contiene cinco coeficientes estructurales —go, 01, %, Bo, y Bi—, 
pero sólo se dispone de cuatro ecuaciones para estimarlos, a saber, los cuatro coeficientes en 
forma reducida Ho, Ii, Mz y M, dados en las ecuaciones (19.2.16) y (19.2.18). Por tanto, no 
es posible encontrar una solución única para todos los coeficientes estructurales. Sin embargo, 
puede mostrarse con facilidad que los parámetros de la función de oferta pueden ser identificados 
(estimados) porque 


Bo = M2 — BrMo 


= 


(19.2.19) 
Bi 


Pero no hay una forma única de estimar los parámetros de la función de demanda; por consi- 
guiente, ésta permanece subidentificada. A propósito, observe que el coeficiente estructural $; 
es una función no lineal de los coeficientes en forma reducida, lo cual crea algunos problemas 
cuando se trata de estimar el error estándar del £; estimado, como se verá en el capítulo 20. 

Para verificar que la función de demanda (19.2.12) no puede ser identificada (estimada), mul- 
tiplique ésta por à (0 < à < 1) y la (19.2.13) por 1 — A, y luego sume para obtener la siguiente 
ecuación “híbrida”: 


Qi = yo + yı P; + y + wi (19.2.20) 
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en donde 
Yo = Ao + (1 — A)Bo 
yı =a +(1—2)B1 (19.2.21) 
y2 = àa2 

y 


Wi = Au +(1— Au, 


La ecuación (19.2.20) es, a partir de la observación, indistinguible de la función de demanda 
(19.2.12), aunque sí es distinguible de la función de oferta (19.2.13), que no contiene la variable 
I como una variable explicativa. Por tanto, la función de demanda permanece sin identificar. 

Observe un hecho interesante: ¡es la presencia de una variable adicional en la función de 
demanda la que permite identificar la función de oferta! ¿Por qué? La inclusión de la variable 
ingreso en la ecuación de demanda proporciona alguna información adicional sobre la variabili- 
dad de la función, como lo indica la figura 19.1d). La figura muestra cómo la intersección de la 
curva estable de oferta con la curva de demanda en movimiento (debido a cambios en el ingreso) 
permite trazar (identificar) la curva de oferta. Como se mostrará en breve, con mucha frecuencia 
la posibilidad de identificar una ecuación depende de si excluye una o más variables que están 
incluidas en otras ecuaciones del modelo. 

Pero suponga que se considera el siguiente modelo de demanda y oferta: 


Función de demanda: 0, = do + Qı P, +01, + ui a <00w>0 
(19.2.12) 

Función de oferta: Q: = Bo + BiP, + B2Pi-1 + uz B1>0,P,>0 
(19.2.22) 


donde la función de demanda permanece igual que antes pero la función de oferta incluye una va- 
riable explicativa adicional, el precio que está rezagado un periodo. La función de oferta postula 
que la cantidad de un bien ofrecido depende de su precio actual y del precio del periodo anterior, 
un modelo frecuentemente utilizado para explicar la oferta de muchos bienes agrícolas. Observe 
que P,_¡ es una variable predeterminada porque su valor se conoce en el tiempo t. 

Por el mecanismo de nivelación del mercado se tiene que 


æo + o P, + ol, +U = Bo + bP, + BaP;-1 + U (19.2.23) 


Al resolver esta ecuación se obtiene el siguiente precio de equilibrio: 


P, = lo + 11,£ + MPi +v (19.2.24) 
en donde 
Mo = Bo — %o 
1 — Br 
==. 
a — Bi 
(19.2.25) 
Tm = B 
01 — Br 
Ux — Uy; 
v = 
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Al sustituir el precio de equilibrio en la ecuación de demanda o en la de oferta se obtiene la 
correspondiente cantidad de equilibrio: 


O, = IIs + Ma/, + Il; P,—1 +w (19.2.26) 


en donde los coeficientes en la forma reducida son 


mM = a1B0 — Br 
a — Bi 
0B1 
pn 
en (19.2.27) 
n, = YB 
a — fı 
y 
0147; — BjUy; 
w, = — 


a — ĝi 


El modelo de demanda y oferta dado en las ecuaciones (19.2.12) y (19.2.22) contiene seis 
coeficientes estructurales —go, 21, %, Bo, B1 y B2—, y hay seis coeficientes en la forma reducida 
—H o, I, IL, Ms, M4 y Ms— para estimarlos. Así, se tienen seis ecuaciones con seis incógnitas 
y normalmente es posible obtener estimaciones únicas. Por consiguiente, tanto los parámetros de 
ambas ecuaciones, de demanda y de oferta, como el sistema en su totalidad pueden ser identifica- 
dos. (En el ejercicio 19.2 se pide al lector expresar los seis coeficientes estructurales en términos 
de los seis coeficientes en su forma reducida dados anteriormente, para mostrar que la estimación 
única del modelo es posible.) 

Para verificar que las funciones de demanda y oferta anteriores son identificables, se puede 
recurrir también al mecanismo de multiplicar la ecuación de demanda (19.2.12) por à (0 < à < 
1) y la función de oferta (19.2.22) por 1 — A y luego sumarlas para obtener una ecuación híbrida. 
Dicha ecuación tendrá las variables predeterminadas /, y P,—1; por tanto, ésta será una ecuación 
por observación diferente tanto de la ecuación de demanda como también de la ecuación de 
oferta porque la primera no contiene a P,_¡ y la última no contiene a /,. 


Sobreidentificación 


Para ciertos bienes y servicios, el ingreso, al igual que la riqueza del consumidor, es un determi- 
nante importante de la demanda. Por consiguiente, al modificar la función de demanda (19.2.12) 
como se muestra a continuación, y manteniendo la función de oferta como antes, se obtiene: 


Función de demanda: O0,=0%+01P, +01, + æ3 Ri + ui (19.2.28) 
Función de oferta: O, = bo + bı P; + B2P;-1 + uze (19.2.22) 


en donde, adicionalmente a las variables ya definidas, R representa la riqueza; para la mayoría de 
los bienes y servicios se espera que la riqueza, al igual que el ingreso, tenga un efecto positivo 
sobre el consumo. 

Al igualar la demanda a la oferta, se obtiene el siguiente precio y la siguiente cantidad de 
equilibrio: 


P; = Io + IE + IR; + MPi tv (19.2.29) 
O, = Ma + Il; + Ile R; + Il- P; +w: (19.2.30) 
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en donde 
Mo = 20% mas > 
a — Br a — Bi 
m =- 03 I; = Ba 
a — Bi a — Bi 
Ta = %1 wr n, = Pé (19.2.31) 
a — Br a — Br 
Mé =- 0381 m = 01 B2 
a —Bi a — Bi 
œu — bitir U — Uy; 
W = — V = — 
1 — Br a — Bi 


El anterior modelo de demanda y oferta contiene siete coeficientes estructurales, pero hay 
ocho ecuaciones para estimarlos: los ocho coeficientes en forma reducida dados en (19.2.31); 
es decir, el número de ecuaciones es mayor que el número de incógnitas. Como resultado, no es 
posible obtener una estimación única de todos los parámetros del modelo, lo cual puede demos- 
trarse fácilmente. De los anteriores coeficientes en la forma reducida se puede obtener 


Ie 
= — 19.2.32 
Bi TD ( ) 
o 
I5 
== 19.2.33 
Bi T, ( ) 


es decir, hay dos estimaciones del coeficiente de precios en la función de oferta y no hay garantía 
de que estos dos valores o soluciones sean idénticos.* Además, puesto que $ aparece en los de- 
nominadores de todos los coeficientes en su forma reducida, la ambigúedad en la estimación de 
B| será transmitida también a las demás estimaciones. 

¿Por qué fue posible identificar la función de oferta en el sistema (19.2.12) y (19.2.22) pero 
no en el sistema (19.2.28) y (19.2.22), siendo que en ambos casos la función de oferta perma- 
nece igual? La respuesta es porque se tiene demasiada información para identificar la curva de 
oferta. Esta situación es la opuesta al caso de subidentificación, donde hay muy poca informa- 
ción. El exceso de información resulta del hecho de que en los modelos (19.2.12) y (19.2.22), la 
exclusión de la variable ingreso de la función de oferta fue suficiente para identificarla, pero en 
los modelos (19.2.28) y (19.2.22) la función de oferta excluye no solamente la variable ingreso, 
sino también la variable riqueza. En otras palabras, en el último modelo se impusieron “muchas” 
restricciones sobre la función de oferta al requerir excluir más variables de las necesarias para 
identificarla; sin embargo, esta situación no implica que la sobreidentificación necesariamente 
sea mala. En el capítulo 20 se verá la forma de manejar el problema de tener mucha información 
o muchas restricciones. 

Ya se han examinado exhaustivamente todos los casos. Como muestra la exposición anterior, 
una ecuación en un modelo de ecuaciones simultáneas puede estar subidentificada o identificada 
(ya sea sobreidentificada o exactamente identificada). El modelo como un todo está identificado 
si cada una de sus ecuaciones también lo está. Para asegurar la identificación, se acude a las 
ecuaciones en forma reducida. En la sección 19.3 se considera un método alterno y posiblemente 
menos laborioso para determinar si una ecuación en un modelo de ecuaciones simultáneas está 
identificada o no. 


4 Observe la diferencia entre la subidentificación y la sobreidentificación. En el primer caso es imposible ob- 
tener estimaciones de los parámetros estructurales, en tanto que en el segundo puede haber varias estima- 
ciones de uno o más coeficientes estructurales. 
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19.3 Reglas para la identificación 


Como lo indican los ejemplos en la sección 19.2, en principio es posible recurrir a las ecuaciones 
en forma reducida para determinar la identificación de una ecuación en un sistema de ecuaciones 
simultáneas. Pero los ejemplos también muestran que este proceso puede llegar a ser muy dis- 
pendioso y laborioso. Por fortuna, no es indispensable utilizar este procedimiento. Las llamadas 
condiciones de orden y de rango de identificación aligeran la labor, proporcionando una rutina 
sistemática. 

Para entender las condiciones de orden y de rango, se introduce la siguiente notación: 


M = número de variables endógenas en el modelo. 

m = número de variables endógenas en una ecuación dada. 

K = número de variables predeterminadas en el modelo, incluyendo el intercepto. 
k = número de variables predeterminadas en una ecuación dada. 


Condición de orden para la identificación? 

Una condición necesaria (pero no suficiente) para la identificación, conocida como la condición 
de orden, puede expresarse en dos formas diferentes pero equivalentes, de la siguiente manera 
(las condiciones necesaria y suficiente para la identificación se presentan más adelante): 


Definición 19.1 En un modelo de M ecuaciones simultáneas, para que una ecuación esté identificada debe ex- 
cluir al menos M — 1 variables (endógenas y predeterminadas) que aparecen en el modelo. Si 
excluye exactamente M — 1 variables, la ecuación está exactamente identificada. Si excluye más 
de M — 1 variables, estará sobreidentificada. 

Definición 19.2 En un modelo de M ecuaciones simultáneas, para que una ecuación esté identificada, el número 


de variables predeterminadas excluidas de esa ecuación no debe ser menor que el número de 
variables endógenas incluidas en la ecuación menos 1, es decir, 


K-k>m-1 (19.3.1) 


Si K— k = m — 1, la ecuación está exactamente identificada, pero si K— k > m — 1, estará so- 
breidentificada. 


En el ejercicio 19.1 se pide al lector demostrar que las dos definiciones anteriores son equiva- 
lentes. 
Para ilustrar la condición de orden, considere de nuevo los ejemplos anteriores. 


EJEMPLO 19.1 


Función de demanda: QÍ = oo + 1P; + Ue (18.2.1) 
Función de oferta: Qí= bo + BiP:+ Uzt (18.2.2) 


Este modelo tiene dos variables endógenas P y Q y no tiene variables predeterminadas. Para ser 
identificadas cada una de estas ecuaciones debe excluir por lo menos M — 1 = 1 variable. Puesto 
que éste no es el caso, ninguna ecuación está identificada. 


EJEMPLO 19.2 


Función de demanda: QÍ = o+ Pt + 071; + Unt (19.2.12) 
Función de oferta: Q? = bo + BrP: + Uzt (19.2.13) 


En este modelo, Q y P son endógenas e / es exógena. Al aplicar la condición de orden dada en 
(19.3.1), se observa que la función de demanda no está identificada. Por otra parte, la función de 
oferta está exactamente identificada porque excluye de manera estricta M — 1 = 1 variable h. 


5 El término orden se refiere al orden de una matriz, es decir, el número de filas y de columnas que con- 
tiene. Véase el apéndice B. 
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EJEMPLO 19.3 


Función de demanda: QÍ = ao + a1P:+ æzlt + Un: (19.2.12) 
Función de oferta: Qí= Bo+ BiP:+ B2Pi-1 + uzt (19.2.22) 


Dado que P; y Qi son endógenas e lų y P+- son predeterminadas, la ecuación (19.2.12) excluye 
exactamente una variable P;_1 y la ecuación (19.2.22) hace lo mismo con una variable /;. Por 
tanto, cada ecuación está identificada según la condición de orden. Así, el modelo considerado 
como un todo también está identificado. 


EJEMPLO 19.4 


Función de demanda: QÍ =00+ &1Pt + 021; +03; + Ue (19.2.28) 
Función de oferta: Q? = Bo + BiP:+ BaPi1 + Uzt (19.2.22) 


En este modelo P; y Qi son endógenas e l Rey Pi- son predeterminadas. La función de de- 
manda excluye exactamente una variable P;_¡ y, por tanto, según la condición de orden, está 
exactamente identificada. Pero la función de oferta excluye dos variables h y R, y se dice enton- 
ces que está sobreidentificada. Como se mencionó, en este caso hay dos formas de estimar Bi, 
el coeficiente de la variable precio. 

Aquí se observa una ligera complicación. Según la condición de orden, la función de de- 
manda está identificada. Pero si se trata de estimar los parámetros de esta ecuación a partir de 
los coeficientes en forma reducida dados en (19.2.31), las estimaciones no serán únicas porque 
Bı, que forma parte de los cálculos, toma dos valores, y es preciso decidir cuál es el apropiado. 
Esta complicación puede obviarse porque, como se muestra en el capítulo 20, en casos de 
sobreidentificación el método de mínimos cuadrados indirectos no es apropiado y debe des- 
cartarse en favor de otros métodos. Uno de esos métodos es el de mínimos cuadrados en dos 
etapas, el cual se estudiará detalladamente en el capítulo 20. 


Como lo indican los ejemplos anteriores, la identificación de una ecuación en un modelo 
de ecuaciones simultáneas es posible si dicha ecuación excluye una o más variables que están 
presentes en otras partes del modelo. Esta situación se conoce como criterio de exclusión (de 
variables), o criterio de cero restricciones (se supone que los coeficientes de las variables que 
no aparecen en una ecuación tienen valor de cero). Este criterio es el más utilizado para asegurar 
o determinar la identificación de una ecuación. Observe que el criterio de cero restricciones está 
basado en expectativas a priori o teóricas acerca de la ausencia de ciertas variables en una ecua- 
ción dada. Depende del investigador señalar claramente la razón por la cual espera que ciertas 
variables aparezcan en algunas ecuaciones y en otras no. 


Condición de rango para la identificación* 

La condición de orden analizada anteriormente es una condición necesaria pero no suficiente 
para la identificación; es decir, aun si se cumple, puede suceder que una ecuación no esté identi- 
ficada. Así, en el ejemplo 19.2, la ecuación de oferta fue identificada por la condición de orden 
porque excluyó la variable ingreso /,, la cual aparecía en la función de demanda. Pero la iden- 
tificación se logra solamente si «>, el coeficiente de /, en la función de demanda, no es cero, es 
decir, si la variable ingreso en verdad forma parte de la función de demanda, no sólo en forma 
probable, sino real. 

En términos más generales, aun si una ecuación cumple la condición de orden K — k> m — 1, 
puede no estar identificada porque las variables predeterminadas excluidas de esa ecuación, pero 
presentes en el modelo, quizá no todas sean independientes de manera que tal vez no exista una 
correspondencia uno a uno entre los coeficientes estructurales (las £) y los coeficientes en forma 


é El término rango se refiere al rango de una matriz y está dado por la matriz cuadrada de máximo rango 
(contenida en la matriz dada) cuyo determinante sea diferente de cero. De manera alterna, el rango de una 
matriz es el número máximo de filas o de columnas linealmente independientes de dicha matriz. Véase el 
apéndice B. 
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reducida (las II). O sea, probablemente no sea posible estimar los parámetros estructurales a 
partir de los coeficientes en la forma reducida, como se mostrará en breve. Por consiguiente, se 
requiere una condición que sea tanto necesaria como suficiente para la identificación. Ésta es la 
condición de rango para la identificación, la cual puede expresarse en los siguientes términos: 


Condición de 
rango para la 


En un modelo que contiene M ecuaciones en M variables endógenas, una ecuación está iden- 
tificada si y sólo si puede construirse por lo menos un determinante diferente de cero, de orden 
(M — 1)(M — 1), a partir de los coeficientes de las variables (endógenas y predeterminadas) ex- 


identificación cluidas de esa ecuación particular, pero incluidas en las otras ecuaciones del modelo. 

Como ilustración de la condición de rango para la identificación, considere el siguiente sis- 
tema hipotético de ecuaciones simultáneas, en el cual las variables Y son endógenas y las varia- 
bles X son predeterminadas.” 

Yi. — Bio BrYa — B13 Yst — yu AX = Uy 
(19.3.2) 
Ya, — B20 B23 Yt — Ya A — Ya2 Az, = Uy 
(19.3.3) 
Yz, — B30 — P31 Yı = Y3a1 Xir — V32 Xz = uz 
(19.3.4) 
Yayı — Bao — Pai Yur — Pa Yai —y43X3t = U4 
(19.3.5) 
Para facilitar la identificación, se escribe el sistema anterior en la tabla 19.1, que se explica por 
sí misma. 

Primero se aplica la condición de orden para la identificación, como se muestra en la tabla 
19.2. Cada ecuación está identificada por la condición de orden. Verifique esto con la condi- 
ción de rango. Considere la primera ecuación, que excluye las variables Y4, X2 y X; (esta exclu- 
sión está representada por los ceros en el primer renglón de la tabla 19.1). Para que esta ecuación 
esté identificada, se debe obtener por lo menos un determinante diferente de cero de orden 

TABLA 19.1 Coeficientes de las variables 
Núm. de ecuación 1 Yı Y2 Y Ya Xi X2 X3 
(19.3.2) —B10 1 Jis (Mz 0 1 0 0 
(19.3.3) —Bao 0 1 —Ba3 0 = 0 
(19.3.4) —B30  —Bz3 0 1 0 Pi —Y32 0 
(19.3.5) Bao Bar Baz 0 1 0 0 —y43 
TABLA 19.2 Núm. de variables Núm. de variables 
predeterminadas excluidas endógenas incluidas 
Núm. de ecuación (K— k) menos uno, (m — 1)  ¿Identificadas? 
(19/3322) 2 2 Exactamente 
(19/1535) 1 1 Exactamente 
(19.3.4) 1 1 Exactamente 
(1955) 2 2 Exactamente 


7 El sistema de ecuaciones simultáneas expuesto en las ecuaciones (19.1.1) puede presentarse en la siguiente 
forma alterna, que puede ser conveniente para el manejo matricial. 


702 


Parte Cuatro Modelos de ecuaciones simultáneas y econometría de series de tiempo 


3 x 3, a partir de los coeficientes de las variables excluidas de esta ecuación, pero incluidas 
en otras. Para conseguir el determinante, se obtiene primero la matriz relevante de los coeficien- 
tes de las variables Y4, X2 y X; incluidas en las otras ecuaciones. En el presente caso, solamente 
hay una matriz como ésa, llamada A, definida de la siguiente manera: 


0 -yn 0 
A=|0 —Y% 0 (19.3.6) 
1 0 —ysa 
Se puede ver que el determinante de esta matriz es cero: 
0 -y2 0 
detA=|0 -y2 0 (19.3.7) 
1 0 =y 


Puesto que el determinante es cero, el rango de la matriz (19.3.6), denotado por p(A), es menor 
que 3. Por consiguiente, la ecuación (19.3.2) no satisface la condición de rango y, por tanto, no 
está identificada. 

Como se anotó, la condición de rango es tanto necesaria como suficiente para la identifica- 
ción. Por consiguiente, a pesar de que la condición de orden muestra que la ecuación (19.3.2) 
está identificada, la condición de rango muestra que no lo está. Al parecer, las columnas o los 
renglones de la matriz A dadas en (19.3.6) no son (linealmente) independientes, lo que significa 
que hay alguna relación entre las variables Y4, X2 y X3. Como resultado, puede no haber suficiente 
información para estimar los parámetros de la ecuación (19.3.2); para el modelo anterior, las 
ecuaciones en forma reducida mostrarán que no es posible obtener los coeficientes estructurales 
de esa ecuación a partir de los coeficientes en la forma reducida. El lector debe verificar que, 
mediante la condición de rango, las ecuaciones (19.3.3) y (19.3.4) tampoco están identificadas, 
mientras que la ecuación (19.3.5) sí lo está. 

Como lo muestra el análisis anterior, la condición de rango dice si la ecuación bajo conside- 
ración está identificada o no, en tanto que la condición de orden expresa si dicha ecuación está 
exactamente identificada o sobreidentificada. 

Para aplicar la condición de rango, puede procederse de la siguiente manera: 


1. Escriba el sistema en forma tabular, como aparece en la tabla 19.1. 

2. Elimine los coeficientes del renglón en el cual aparece la ecuación bajo consideración. 

3. Elimine también las columnas que corresponden a aquellos coeficientes del punto 2 que son 
diferentes de cero. 

4. Los datos que quedan en la tabla corresponden únicamente a los coeficientes de las variables 
incluidas en el sistema pero no en la ecuación bajo consideración. Con estos datos, forme 
todas las matrices posibles, en este caso A, de orden M — 1 y obtenga los determinantes 
correspondientes. Si es posible encontrar al menos un determinante diferente de cero, la ecua- 
ción en cuestión estará identificada (en forma exacta o sobreidentificada). El rango de la ma- 
triz, por ejemplo A, en este caso, es exactamente igual a M — 1. Si todos los determinantes 
posibles (M — 1)(M — 1) son cero, el rango de la matriz A es menor que M — 1 y la ecuación 
bajo investigación no está identificada. 


El estudio de las condiciones de orden y de rango para la identificación conduce a los si- 
guientes principios generales de identificabilidad de una ecuación estructural en un sistema de M 
ecuaciones simultáneas: 


1. SiK—k>m-— 1 y el rango de matriz A es M — 1, la ecuación está sobreidentificada. 

2. Si K— k= m — 1 y el rango de matriz A es M — 1, la ecuación está exactamente identi- 
ficada. 

3. Si K— k> m- 1 y el rango de la matriz A es menor que M — 1, la ecuación está sub- 
identificada. 

4. Si K— k < m — 1, la ecuación estructural no está identificada. El rango de la matriz A en 
este caso debe ser menor que M — 1. (¿Por qué?) 


*]19.4 Prueba 
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En adelante, cuando se hable de identificación, debe entenderse identificación exacta o sobre- 
identificación. No tiene sentido considerar ecuaciones no identificadas o subidentificadas puesto 
que, no importa qué tan completa sea la información, los parámetros estructurales no pueden ser es- 
timados. Sin embargo, como se muestra en el capítulo 20, es posible identificar los parámetros de las 
ecuaciones sobreidentificadas al igual que aquellos de las ecuaciones exactamente identificadas. 

¿Cuál condición se debe utilizar en la práctica: orden o rango? Para modelos grandes de ecua- 
ciones simultáneas, la aplicación de la condición de rango es una labor muy dispendiosa. Por 
consiguiente, como afirma Harvey: 

Por fortuna, la condición de orden por lo general es suficiente para asegurar la identificación, y aun- 

que es importante tener conciencia de la condición de rango, la no verificación de su cumplimiento 

raramente resultará en un desastre. 


. . C 
de simultaneidad? 


Si no hay ecuaciones simultáneas, o presencia del problema de la simultaneidad, MCO produ- 
cen estimadores consistentes y eficientes. Por otra parte, si hay simultaneidad, los estimadores 
de MCO no son ni siquiera consistentes. Como se mostrará en el capítulo 20, en presencia de 
simultaneidad, los métodos de mínimos cuadrados en dos etapas (MC2E) y de variables ins- 
trumentales (VI) producirán estimadores consistentes y eficientes. Extrañamente, si se aplican 
métodos alternos cuando de hecho no hay simultaneidad, éstos producen estimadores que son con- 
sistentes pero no eficientes (es decir, con menor varianza). Todo este análisis sugiere que se debe 
verificar la presencia del problema de la simultaneidad antes de descartar los MCO en favor de 
las alternativas. 

Como se mostró, el problema de la simultaneidad surge porque algunas de las regresoras son 
endógenas y, por consiguiente, es probable que estén correlacionadas con el término de perturba- 
ción o de error. Así, en una prueba de simultaneidad, se intenta averiguar si una regresora (una 
endógena) está correlacionada con el término de error. Si lo está, existe el problema de simul- 
taneidad, en cuyo caso deben encontrarse alternativas a MCO; si no lo está, se pueden utilizar 
MCO. Para averiguar cuál es el caso en una situación concreta, se puede utilizar la prueba del 
error de especificación de Hausman. 


Prueba de especificación de Hausman 
Una versión de esta prueba, que puede utilizarse para probar la presencia del problema de la 
simultaneidad, se explica de la siguiente manera.!% 

Para exponer la idea, considere el siguiente modelo de dos ecuaciones: 


Función de demanda: 0? = œo + &ı P, +01, + 3R; + ui (19.4.1) 
Función de oferta: O; = bo + BiP, + uz (19.4.2) 
en donde P = precio 
Q = cantidad 
I = ingreso 
R = riqueza 


u = términos de error 


Suponga que / y R son exógenas. Por supuesto, P y O son endógenas. 


* Opcional. 

8 Andrew Harvey, The Econometric Analysis of Time Series, 2a. ed., The MIT Press, Cambridge, Mass., 1990, 
p. 328. 

? El siguiente análisis se tomó de Robert S. Pindyck y Daniel L. Rubinfeld, Econometric Models and Economic 
Forecasts, 3a. ed., McGraw-Hill, Nueva York, 1991, pp. 303-305. 

10 J.A. Hausman, “Specification Tests in Econometrics”, Econometrica, vol. 46, noviembre de 1976, pp. 
1251-1271. Véase también A. Nakamura y M. Nakamura, “On the Relationship among Several Specification 
Error Tests Presented by Durbin, Wu and Hausman”, Econometrica, vol. 49, noviembre de 1981, pp. 1583- 
1588. 
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Ahora, considere la función de oferta (19.4.2). Si no hay problema de simultaneidad (es decir, 
P y O son mutuamente independientes), entonces P, y uz, no deben estar correlacionadas (¿por 
qué?). Por otra parte, si hay simultaneidad, P, y uz, estarán correlacionadas. Para averiguar cuál 
es el caso, se realiza la siguiente prueba de Hausman: 

Primero, de (19.4.1) y (19.4.2) se obtienen las siguientes ecuaciones en forma reducida: 


P, = Ti TEA Ro (19.4.3) 
O; = ¡ue + Ma4/, + TIs5R, + ww, (19.4.4) 


en donde v y w son los términos de error en la forma reducida. Si se estima (19.4.3) por MCO, 
se obtiene 


Ê = lo + 11,1, + LR, (19.4.5) 
Por consiguiente, 
P.=P.+%, (19.4.6) 


en donde Ê, son estimaciones de P, y Y, son los residuos estimados. Al sustituir la ecuación 
(19.4.6) en la ecuación (19.4.2), se obtiene 


O, = Bo + bi Ê, + Bid, + uz (19.4.7) 


Nota: Los coeficientes de P, y de v, son los mismos. La diferencia entre esta ecuación y la ecua- 
ción original de oferta es que incluye la variable adicional ĵ, el residuo de la regresión (19.4.3). 

Ahora, bajo la hipótesis nula de que no hay simultaneidad, la correlación entre , y uz, debe 
ser cero, asintóticamente. Así, si se efectúa la regresión (19.4.7) y se encuentra que el coeficiente 
de v, en la ecuación (19.4.7) es estadísticamente cero, puede concluirse que no hay problema de 
simultaneidad. Por supuesto, esta conclusión se invierte si se encuentra que este coeficiente sí es 
estadísticamente significativo. De paso, observe que la prueba de simultaneidad de Hausman se 
conoce también como la prueba de endogeneidad de Hausman. En el ejemplo anterior se quiere 
averiguar si P, es endógena. Si es así, se tiene el problema de la simultaneidad. 

En esencia, la prueba de Hausman comprende los siguientes pasos: 

Paso 1. Efectúe la regresión de P, sobre /, y R, para obtener V,. 

Paso 2. Efectúe la regresión de O, sobre P, y P, y realice una prueba f sobre el coeficiente 

de ?,. Si éste es significativo, no debe rechazar la hipótesis de simultaneidad; de otra forma, 

rechácela.!! Sin embargo, para una estimación eficiente, Pindyck y Rubinfeld sugieren hacer 

la regresión de Q; sobre P, y %,.!? 

Existen otras formas de aplicar la prueba de Hausman, que se presentan por medio de un 
ejercicio. 


EJEMPLO 19.5 
Modelo del gasto 
público de Pindyck- 
Rubinfeld”? 


Para estudiar el comportamiento del gasto gubernamental de Estados Unidos a nivel estatal y 
local, los autores desarrollaron el siguiente modelo de ecuaciones simultáneas: 
EXP = f1 + B2AID + B3INC + B4POP + u; (19.4.8) 
AID = 81 + ô2EXP + 83PS + v; (19.4.9) 
en donde EXP = gasto público de los gobiernos estatal y local 
AID = nivel de ayuda mediante subsidio federal 
INC = ingreso de los estados 
POP = población estatal 
PS = población estudiantil de primaria y secundaria 
u y v = términos de error 


En este modelo, INC, POP y PS se consideran exógenas. 


11 Si hay más de una regresora endógena, deberá utilizarse la prueba F. 
12 Pindyck y Rubinfeld, op. cit., p. 304. Nota: La regresora es P; y no P, 
13 Pindyck y Rubinfeld, op. cit., pp. 176-177. La notación ha sido ligeramente alterada. 
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Debido a la posibilidad de que existiera simultaneidad entre EXP y AID, los autores realizaron 
primero la regresión de AID sobre INC, POP y PS (es decir, la regresión en forma reducida). Sea 
w; el término de error en esta regresión y ŵŴ; el residuo calculado; después los autores efectuaron 
la regresión de EXP sobre AID, INC, POP y vw, para obtener los siguientes resultados: 


EXP = —89.41 + 4.50AID + 0.00013INC— 0.518POP- 1.39%, 
t= (-1.04) (5.89) (3.06) (-4.63) (173) (19.4.10)'* 
= 0.99 


Al nivel de significancia de 5%, el coeficiente de Ŵ; no es estadísticamente significativo y, por 
consiguiente, a este nivel no hay problema de simultaneidad. Sin embargo, al nivel de signifi- 
cancia de 10%, éste sí es estadísticamente significativo, y aumenta la posibilidad de que exista 
el problema de simultaneidad. 

A propósito, la estimación MCO de la ecuación (19.4.8) es la siguiente: 


EXP =-46.81 + 3.24AID+ 0.00019INC — 0.597POP 
t= (-0.56) (13.64) (8.12) 571 (19.4.11) 
2 — 0.993 


Se puede observar una característica interesante de los resultados dados en las ecuaciones 
(19.4.10) y (19.4.11): cuando la simultaneidad se considera de manera explícita, la variable AID 
es menos significativa, aunque numéricamente tiene una magnitud mayor. 


*19.5 Pruebas de exogeneidad 


Como ya se dijo, es responsabilidad del investigador especificar cuáles variables son endógenas 
y cuáles exógenas. Esto dependerá del problema en cuestión y de la información a priori de la 
cual se disponga. Pero, ¿es posible desarrollar una prueba estadistica de exogeneidad, al estilo de 
la prueba de causalidad de Granger? 

La prueba de Hausman, analizada en la sección 19.4, puede utilizarse para responder a esta 
pregunta. Suponga que se tiene un modelo de tres ecuaciones con tres variables endógenas, Y1, 
Y, y Y3, y que hay tres variables exógenas, X1, X2 y X3. Suponga además que la primera ecuación 
del modelo es 


Yir = Bo + B2Yo; + B3Y3 +01X7 + uy; (19.5.1) 


Si Y, y Y son verdaderamente endógenas, no se puede estimar la ecuación (19.5.1) por MCO 
(¿por qué?). Entonces, ¿cómo averiguarlo? Se puede proceder de la siguiente manera: se obtienen 
las ecuaciones en forma reducida para Y, y Y3 (Nota: Las ecuaciones en forma reducida tendrán 
solamente variables predeterminadas al lado derecho). De estas ecuaciones se obtienen P; y Ys 
los valores pronosticados de Y; y Y3;, respectivamente. Entonces, dentro del planteamiento de la 
prueba de Hausman, analizada anteriormente, se puede estimar la siguiente ecuación mediante 
MCO: 


Yi; = Bo + BoYo; + Ba; +01X15 + 20 Ya; + 29 Ya: + uii (19.5.2) 


Al emplear la prueba F, se demuestra la hipótesis de que 12 = 43 = 0. Si esta hipótesis es recha- 
zada, Y, y Y3 pueden considerarse endógenas, pero si no lo es, pueden ser tratadas como exóge- 
nas. Para un ejemplo concreto véase el ejercicio 19.16. 


* Opcional. 
14 Al igual que en la nota 12 de pie de página, los autores utilizan a AID como regresora en lugar de AID. 
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Resumen y 
conclusiones 


N.e 


10. 


. El problema de la identificación es anterior al problema de la estimación. 
. Por problema de la identificación se entiende la posibilidad de obtener estimaciones numéri- 


cas únicas de los coeficientes estructurales a partir de los coeficientes en forma reducida. 


. Si esto puede hacerse, una ecuación que forma parte de un sistema de ecuaciones simultá- 


neas está identificada. Si esto no puede hacerse, la ecuación estará no identificada o subiden- 
tificada. 


. Una ecuación identificada puede estarlo en forma exacta o estar sobreidentificada. En el 


primer caso pueden obtenerse valores únicos de los coeficientes estructurales; en el segundo, 
puede haber más de un valor para uno o más de los parámetros estructurales. 


. El problema de la identificación surge porque el mismo conjunto de información puede ser 


compatible con diferentes conjuntos de coeficientes estructurales, es decir, diferentes mo- 
delos. Así, en la regresión del precio sobre la cantidad solamente, es difícil decir si se está 
estimando la función de oferta o la de demanda, porque el precio y la cantidad forman parte 
de ambas ecuaciones. 


. Para establecer si una ecuación estructural está identificada, se puede aplicar la técnica de 


las ecuaciones en forma reducida, que expresan una variable endógena únicamente como 
función de variables predeterminadas. 


. Sin embargo, este laborioso procedimiento se puede evitar recurriendo a la condición de 


orden o a la condición de rango para la identificación. Aunque la condición de orden es 
fácil de aplicar, ésta proporciona solamente una condición necesaria para la identificación. 
Por otra parte, la condición de rango es una condición necesaria y suficiente para la identi- 
ficación. Si la condición de rango se satisface, la de orden se satisface también, aunque lo 
contrario no es cierto. Pero, en la práctica, la condición de orden es generalmente adecuada 
para asegurar la identificabilidad. 


. En presencia de simultaneidad, por lo general, MCO no son aplicables, como se mostró en 


el capítulo 18. No obstante, si se desea utilizarlos es imperativo realizar explícitamente la 
prueba de simultaneidad. La prueba de especificación de Hausman puede emplearse para 
este propósito. 


. Aunque, en la práctica, la decisión de si una variable es endógena o exógena es un asunto 


de juicio, es posible utilizar la prueba de especificación de Hausman para determinar si una 
variable o un grupo de variables son exógenas o endógenas. 

Aunque son de la misma familia, los conceptos de causalidad y de exogeneidad son diferen- 
tes y uno puede no necesariamente implicar el otro. En la práctica, es mejor mantener esos 
conceptos separados (véase la sección 17.14). 


EJERCICIOS Preguntas 


19.1. Demuestre que las dos definiciones de la condición de orden para la identificación (véase 


la sección 19.3) son equivalentes. 


19.2. Deduzca los coeficientes estructurales de los coeficientes en forma reducida dados en las 


ecuaciones (19.2.25) y (19.2.27). 


19.3. Obtenga la forma reducida de los siguientes modelos y determine en cada caso si las 


ecuaciones estructurales no están identificadas, están identificadas exactamente o están 
sobreidentificadas: 

a) Capítulo 18, ejemplo 18.2. 

b) Capítulo 18, ejemplo 18.3. 

c) Capítulo 18, ejemplo 18.6. 


19.4. Verifique la identificabilidad de los modelos del ejercicio 19.3, aplicando las condiciones 


de orden y de rango para la identificación. 


19.5. En el modelo (19.2.22) del texto se demostró que la ecuación de oferta estaba sobreidenti- 


ficada. ¿Cuáles restricciones, de existir, sobre los parámetros estructurales harán que esta 
ecuación esté exactamente identificada? Justifique las restricciones que se impongan. 


Capítulo 19 El problema de la identificación 707 


19.6. Del modelo 


Yi, = Bio + Br2Ya + Yi Ar + uir 
Ya, = Ba0 + B21 Yir + Y2a2X21 + Us 
se obtienen las siguientes ecuaciones en forma reducida: 
Yi, = Mio + 1141 + MX, + w: 
Ya; = Moo + MXi: + Ma A, + v; 
a) ¿Están identificadas las ecuaciones estructurales? 
b) ¿Qué sucede con la identificación si se sabe a priori que y, = 0? 
19.7. Remítase al ejercicio 19.6. Las ecuaciones estimadas en forma reducida son las siguien- 
tes: 
Yi, =4+3X¡, + 8Xo, 
Yo, =2+6X1, + 10X, 
a) Obtenga los valores de los parámetros estructurales. 
b) ¿Cómo se probaría la hipótesis nula de que y, = 0? 
19.8. El modelo 


Yi, = Bio + i2 Yz: + 1141 + Ut; 
Ya, = Pao + Bar Yit + uz: 
genera las siguientes ecuaciones en forma reducida: 
Y == 4 =F 8X ls 
To, =2 + 12X; 
a) ¿Cuáles coeficientes estructurales, de existir, pueden ser estimados a partir de los 
coeficientes en forma reducida? Fundamente el argumento. 
b) ¿Cómo cambia la respuesta de a) si se sabe a priori que 1) Bj = 0 y 2) B10 = 0? 
19.9. Determine si las ecuaciones estructurales del modelo dado en el ejercicio 18.8 están iden- 
tificadas. 
19.10. Remítase al ejercicio 18.7 y determine cuáles ecuaciones estructurales pueden ser identi- 
ficadas. 
19.11. La tabla 19.3 es un modelo de cinco ecuaciones con cinco variables endógenas Y y cuatro 
variables exógenas X: 


TABLA 19.3 Coeficientes de las variables 
Núm. de ecuación Y; Y2 Y3 Y4 Y; X1 X2 X3 X4 
1 1 Br2 0 Bra 0 Yi1 0 0 Y14 
2 0 1 b23 b24 0 0 Y22 Y23 0 
3 B31 0 1 b34 b35 0 0 Y33 Y34 
4 0 Baz 0 1 0 Ya1 0 Y43 0 
5 Bs1 0 0 b54 1 0 Y52 Y/53 0 


Determine la identificabilidad de cada ecuación con la ayuda de las condiciones de 
orden y de rango para la identificación. 


19.12. Considere el siguiente modelo keynesiano ampliado de determinación del ingreso: 
Función de consumo: C= Pit oh == [le e 
Función de inversión: I, = œo +01Y,-1 + Uz 
Función de impuestos: TEE + uz 
Identidad del ingreso: == CAI FG 
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19.13. 


19.14. 


KONS 


en donde C = gasto de consumo 
Y = ingreso 
I = inversión 
T = impuestos 
G = gasto gubernamental 
u = términos de perturbación 


En el modelo, las variables endógenas son C, 1, Ty Y, y las variables predeterminadas son 
Gy Y;-1. 

Al aplicar la condición de orden, verifique la identificabilidad de cada una de las ecua- 
ciones en el sistema y del sistema como un todo. ¿Qué sucedería si r,, la tasa de interés, 
que se ha supuesto exógena, apareciera al lado derecho de la función de inversión? 
Remítase a la información dada en la tabla 18.1 del capítulo 18. Utilizando esta informa- 
ción, estime las regresiones en forma reducida (19.1.2) y (19.1.4). ¿Se pueden estimar Bo 
y Bı? Muestre los cálculos. ¿Está el modelo identificado? ¿Por qué sí o por qué no? 
Suponga que se propone una definición adicional a la condición de orden para la identifi- 
cación: 


K>=m+k-=1 


que establece que el número de variables predeterminadas en el sistema no puede ser 
menor que el número de coeficientes desconocidos en la ecuación que va a ser identifi- 
cada. Muestre que esta definición es equivalente a las otras dos definiciones de la condi- 
ción de orden dadas en el texto. 


A continuación se presenta una versión simplificada del modelo de Suits del mercado de 
sandías.* 


Ecuación de demanda: P, =0+01(0//N,) + 00(Y,/N,) + 03F, + u1, 


Función de oferta de 
la cosecha: O; = po FEIS WA Se Po Prai a Coi ae PaT E ar, 


en donde P = precio 

(Q/N) = cantidad demandada per cápita 

(Y/N ) = ingreso per capita 
F = costos de transporte 

(P/W ) = precio relativo a la tasa salarial agrícola 
C = precio del algodón 
T = precio de otros vegetales 
N = población 


P y O son las variables endógenas. 
a) Obtenga la forma reducida. 
b) Determine si la función de demanda, de oferta, o las dos están identificadas. 


Ejercicios empíricos 


19.16. 


Considere el siguiente modelo de demanda y oferta de dinero: 


Demanda de dinero: M? = bo + B1Y, + P2R ¿+ b3 P, + ui 
Oferta de dinero: M; = do +a1Y, + ux 


* D.B. Suits, “An Econometric Model of the Watermelon Market”, Journal of Farm Economics, vol. 37, 1955, 
pp. 237-251. 
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TABLA 19.4 Pe 
Dinero, PIB, tasa de inte- Observación M2 PIB TASABT IPC 
Fese ndice de precios al 1970 626.5 3 771.9 6.458 38.8 
A O 1971 710.3 3 898.6 4.348 40.5 
Unidos, 1970-2006 1972 802.3 4 105.0 4.071 41.8 
1973 855.5 4 341.5 7.041 44.4 
Fuente: Economic Report of the 1974 902.1 4 319.6 7.886 49.3 
o A 1975 1 016.2 4 311.2 5.838 53.8 
a 1976 1 152.0 4 540.9 4.989 56.9 
1977 1 270.3 4 750.5 5.265 60.6 
1978 1 366.0 5 015.0 7.221 65.2 
1979 1 473.7 5 173.4 10.041 72.6 
1980 1 599.8 5161.7 11.506 82.4 
1981 1755.5 5 291.7 14.029 90.9 
1982 1 910.1 5 189.3 10.686 96.5 
1983 2 126.4 5 423.8 8.63 99.6 
1984 2 309.8 5 813.6 9.58 103.9 
1985 2 495.5 6 053.7 7.48 107.6 
1986 2 732.2 6 263.6 5.98 109.6 
1987 2 831.3 6 475.1 5.82 113.6 
1988 2 994.3 6 742.7 6.69 118.3 
1989 3 158.3 6 981.4 8.12 124.0 
1990 3 277.7 7112.5 7.51 130.7 
1991 3 378.3 7 100.5 5.42 136.2 
1992 3 431.8 7 336.6 3.45 140.3 
1993 3 482.5 7 532.7 3.02 144.5 
1994 3 498.5 7 835.5 4.29 148.2 
1995 3 641.7 8 031.7 5.51 152.4 
1996 3 820.5 8 328.9 5.02 156.9 
1997 4 035.0 8 703.5 5.07 160.5 
1998 4 381.8 9 066.9 4.81 163.0 
1999 4 639.2 9 470.3 4.66 166.6 
2000 4 921.7 9817.0 5.85 172.2 
2001 5 433.5 9 890.7 3.45 177.1 
2002 772 10 048.8 1.62 179.9 
2003 6 071.2 10 301.0 1.02 184.0 
2004 6 421.6 10 675.8 1.38 188.9 
2005 6 691.7 11 003.4 3.16 195.3 
2006 7 035.5 11 319.4 4.73 201.6 
Notas: Mh = oferta de dinero Mh (miles de millones de dólares). 


PIB = producto interno bruto (miles de millones de dólares). 
TASABT = tasa de interés de los bonos del Tesoro a tres meses, %. 
IPC = índice de precios al consumidor (1982-1984 = 100). 


en donde M = dinero 
Y = ingreso 
R = tasa de interés 
P = precio 
u = términos de error 


Suponga que R y P son exógenas y que M y Y son endógenas. En la tabla 19.4 se presenta 
información sobre M (definición M2), Y (PIB), R (tasa de los bonos del Tesoro a tres 
meses) y P (indice de precios al consumidor), para Estados Unidos durante 1970-2006. 
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a) ¿Está identificada la función de demanda? 

b) ¿Está identificada la función de oferta? 

c) Obtenga las expresiones para las ecuaciones en forma reducida para M y para Y. 

d) Aplique la prueba de la simultaneidad a la función de oferta. 

e) ¿Cómo puede establecerse si Y es realmente endógena en la función de oferta de di- 
nero? 


19.17. La prueba de Hausman analizada en el texto también se puede llevar a cabo de la si- 
guiente manera. Considere la ecuación (19.4.7): 


O, = Bo + BiP, + bive + uo; 


a) Puesto que P; y v; tienen los mismos coeficientes, ¿cómo se probaría que en una apli- 
cación determinada esto es así efectivamente? ¿Qué implicaciones tiene esto? 

b) Puesto que P; no está correlacionada con uz, por definición (¿por qué?), una manera 
de averiguar si P, es exógena consiste en ver si v; está correlacionada con u>,. ¿Cómo 
se puede probar esto? ¿Qué prueba se emplea? (Pista: Sustituya P, de la ecuación 
[19.4.6] en la ecuación [19.4.7].) 


Capítulo e) () 


Métodos de 


ecuaciones simultáneas 


Después de analizar la naturaleza de los modelos de ecuaciones simultáneas en los dos capítu- 
los anteriores, aquí se trata el problema de la estimación de los parámetros de tales modelos. 
Para empezar, puede decirse que el problema de estimación es más bien complejo porque hay 
una diversidad de técnicas de estimación con propiedades estadísticas diversas. En vista de la 
naturaleza introductoria de este texto, se considerarán solamente algunas de estas técnicas. La 
exposición será simple y con frecuencia heurística, dejando los detalles más complejos para las 


referencias. 


20.1 Enfoques para la estimación 


Si se considera el modelo general de M ecuaciones con M variables endógenas dado en la ecuación 
(19.1.1), pueden adoptarse dos enfoques para estimar las ecuaciones estructurales, a saber: méto- 
dos uniecuacionales, también conocidos como métodos de información limitada, y métodos de 
sistemas, conocidos como métodos de información completa. En los métodos uniecuacionales 
que serán considerados en breve, cada ecuación en el sistema (de ecuaciones simultáneas) se 
estima individualmente, considerando las restricciones impuestas sobre ella (tales como la ex- 
clusión de algunas variables) sin preocuparse de las restricciones sobre las otras ecuaciones en el 
sistema;! de ahí el nombre de métodos de información limitada. Por otra parte, en los métodos 
de sistemas, se estiman todas las ecuaciones en el modelo de manera simultánea, teniendo en 
cuenta las restricciones ocasionadas por la omisión o ausencia de algunas variables sobre dichas 
ecuaciones (recuerde que tales restricciones son esenciales para la identificación), de aquí el 


nombre métodos de información completa. 
Como ejemplo, considere el siguiente modelo de cuatro ecuaciones: 


Yir = Pio + + BY + Bill + + 141 + 

Ya = Bao + + bz Yz: + VX + y2242, 
Ys: = P30 + BY + + BsaYa + V31Xir + Y32X21 + 
Ya, = Bao + + BarYo: 


+ YA, + Ust 


1 Sin embargo, para fines de identificación, la información proporcionada por otras ecuaciones tendrá que 
ser considerada. Pero, como se mencionó en el capítulo 19, la estimación es posible sólo en el caso de 
ecuaciones identificadas (exactamente o sobreidentificadas). En este capítulo se supone que el problema de 


identificación se ha resuelto utilizando las técnicas de dicho capítulo. 
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en donde las Y son las variables endógenas y las X son las variables exógenas. Si se está inte- 
resado en estimar, por ejemplo, la tercera ecuación, los métodos uniecuacionales considerarán 
solamente esta ecuación, observando que las variables Y, y X; están excluidas de ella. En los 
métodos de sistemas, por el contrario, se trata de estimar las cuatro ecuaciones simultáneamente, 
teniendo en cuenta todas las restricciones impuestas sobre las diversas ecuaciones del sistema. 

Para preservar el espíritu de los modelos de ecuaciones simultáneas, idealmente debería uti- 
lizarse el método de sistemas, tal como el método de máxima verosimilitud con información 
completa (MVIC).? Sin embargo, en la práctica, tales métodos no son de uso frecuente por 
múltiples razones. Primero, la carga computacional es enorme. Por ejemplo, el modelo compara- 
tivamente pequeño (20 ecuaciones) de Klein-Goldberger de la economía de Estados Unidos para 
1955 tenía 151 coeficientes diferentes de cero, de los cuales los autores estimaron sólo 51, utili- 
zando información de series de tiempo. El modelo econométrico del Brookings Social Science 
Research Council (SSRC) para la economía estadounidense, publicado en 1965, tenía inicial- 
mente 150 ecuaciones.? Aunque modelos tan elaborados pueden proporcionar detalles complejos 
de los diversos sectores de la economía, los cálculos representan un enorme esfuerzo aun en 
estos días de computadoras de alta velocidad, sin mencionar el costo involucrado. Segundo, los 
métodos de sistemas, como el MVIC, conducen a soluciones que son altamente no lineales en 
los parámetros y, por consiguiente, difíciles de determinar. Tercero, si hay un error de especifica- 
ción (por ejemplo, una forma funcional equivocada o la exclusión de variables relevantes) en una 
o en más ecuaciones del sistema, dicho error es transmitido al resto del sistema. Como resultado, 
los métodos de sistemas se vuelven muy sensibles a los errores de especificación. 

Por consiguiente, en la práctica, los métodos uniecuacionales son utilizados con más frecuen- 
cia. Como lo plantea Klein, 


Los métodos uniecuacionales, en el contexto de un sistema simultáneo, pueden ser menos sensibles 
a errores de especificación en el sentido de que aquellas partes del sistema que tienen una especifi- 
cación correcta pueden no verse afectadas considerablemente por errores de especificación en otra 
parte.* 


En el resto del capítulo se tratará sólo con los métodos uniecuacionales. En específico, se 
estudiarán los siguientes métodos uniecuacionales: 
1. Mínimos cuadrados ordinarios (MCO) 
2. Mínimos cuadrados indirectos (MCI) 


3. Mínimos cuadrados en dos etapas (MC2E) 


20.2 Modelos recursivos y mínimos cuadrados ordinarios 


En el capítulo 18 se vio que, debido a la interdependencia entre el término de perturbación esto- 
cástico y la(s) variable(s) explicativa(s) endógena(s), el método de MCO es inapropiado para la 
estimación de una ecuación en un sistema de ecuaciones simultáneas. Así, como se explicó en 
la sección 18.3, si se aplica erróneamente, los estimadores no sólo resultan sesgados (en muestras 
pequeñas) sino también inconsistentes; es decir, sin importar qué tan grande sea el tamaño de la 
muestra, el sesgo no desaparece. Sin embargo, hay una situación en la cual el método de MCO 
puede ser aplicado apropiadamente, aun en el contexto de las ecuaciones simultáneas. Es el caso 
de los modelos recursivos, triangulares o causales. 


2 Para una exposición sencilla de este método, vea Carl F. Christ, Econometric Models and Methods, John 
Wiley & Sons, Nueva York, 1966, pp. 395-401. 


3 James S. Duesenberry, Gary Fromm, Lawrence R. Klein y Edwin Kuh, eds., A Quarterly Model of the United 
States Economy, Rand McNally, Chicago, 1965. 


4 Lawrence R. Klein, A Textbook of Econometrics, 2a. ed., Prentice-Hall, Englewood Cliffs, N.J., 1974, p. 150. 
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Para ver la naturaleza de estos modelos, considere el siguiente sistema de tres ecuaciones: 


Yı = Bio + YX + y12A2, + uir 
Yo, = Bao + P2 Yir + Ya Xt + VX + Uz (20.2.1) 
Y3, = B30 + BuYi + BY + V31X1t + 13241 + Uze 


en donde, como es usual, las Y y las X son las variables endógenas y exógenas respectivamente. 
Las perturbaciones son tales que 


COV (Uir, U2) = COV (Uir U31) = COV (Uzr, U3) = 0 


es decir, las perturbaciones de diferentes ecuaciones en el mismo periodo no están correlaciona- 
das (técnicamente, éste es el supuesto de cero correlación contemporánea). 

Ahora, considere la primera ecuación de (20.2.1). Puesto que contiene variables exógenas al 
lado derecho y como, por los supuestos, no están correlacionadas con el término de perturbación 
Uin esta ecuación satisface el supuesto crítico del método de MCO clásico, a saber: la no corre- 
lación entre las variables explicativas y las perturbaciones estocásticas. Por tanto, MCO puede 
aplicarse directamente a esta ecuación. Luego, considere la segunda ecuación de (20.2.1), la cual 
contiene la variable endógena Yı como una variable explicativa junto con las X no estocásticas. 
Ahora bien, MCO también puede ser aplicado a esta ecuación, siempre y cuando Y4; y uz, no estén 
correlacionadas. ¿Es esto así? La respuesta es sí porque u, el cual afecta a Y1, por los supuestos 
y no está correlacionada con uz. Por consiguiente, para todos los efectos prácticos, Y, es una 
variable predeterminada en lo que respecta a Y2. Así, se puede proceder con la estimación de esta 
ecuación por MCO. Llevando este argumento un paso más adelante, también se puede aplicar 
MCO a la tercera ecuación en (20.2.1) porque Y y Y, no están correlacionados con uz. 

Así, en el sistema recursivo, puede aplicarse MCO a cada ecuación en forma separada; de 
hecho, no se tiene el problema de las ecuaciones simultáneas en esta situación. Por la estructura 
de tales sistemas, es claro que no hay interdependencia entre las variables endógenas. Así, Y; 
afecta a Y, pero Y no afecta a Y. En forma similar, Y; y Y, influyen en Y sin que esta última las 
influya. En otras palabras, cada ecuación presenta una dependencia causal unilateral, de ahí el 
nombre de modelos causales.* La figura 20.1 ilustra esto de manera esquemática. 


FIGURA 20.1 


u 
Ñ 1 
Modelo recursivo. 


uz 


u3 


5 El nombre alternativo triangular se desprende del hecho de que si se forma la matriz de los coeficientes de 
las variables endógenas dadas en (20.2.1), se obtiene la siguiente matriz triangular: 


Y Ya Y 
Ecuación 1 1 0 0 


Ecuación 2 | B21 1 0 
Ecuación 3 | B31 632 1 


Observe que los datos por encima de la diagonal principal son cero (¿por qué?). 


714 Parte Cuatro Modelos de ecuaciones simultáneas y econometria de series de tiempo 


Como ejemplo de un sistema recursivo, puede postularse el siguiente modelo de determina- 
ción de salarios y precios: 


Ecuación de precios: È, = Bio + BW, + B2B: + Bis M + Bisi + ui 
Ecuación de salarios: W, = Bao + B21UN; + B32 P, + uz (20.2.2) 


donde P = tasa de cambio del precio por unidad de producción 


W = tasa de cambio de los salarios por empleado 


R = tasa de cambio del precio del capital 


M = tasa de cambio de los precios de importación 


L = tasa de cambio de la productividad laboral 
UN = tasa de desempleo, %6 


La ecuación de precios postula que la tasa de cambio de los precios en el periodo actual es una 
función de las tasas de cambio en los precios del capital y de las materias primas, de la tasa de 
cambio en la productividad laboral y de la tasa de cambio en los salarios en el periodo anterior. 
La ecuación de salarios muestra que la tasa de cambio en los salarios en el periodo actual está 
determinada por la tasa de cambio de los precios en el periodo actual y por la tasa de desempleo. 
Es claro que la cadena causal va de W,_, > P, > W, y, por consiguiente, puede aplicarse MCO 
para estimar los parámetros de las dos ecuaciones individualmente. 

Aunque los modelos recursivos han demostrado ser útiles, la mayor parte de los modelos de 
ecuaciones simultáneas no presentan tal relación unilateral de causa y efecto. Por consiguiente, 
MCO, en general, resulta inapropiado para estimar una sola ecuación en el contexto de un modelo 
de ecuaciones simultáneas.” 

Hay quienes sostienen que aunque MCO generalmente es inaplicable a modelos de ecuaciones 
simultáneas, se puede utilizar solamente como estándar o norma de comparación. Es decir, se 
puede estimar una ecuación estructural mediante MCO, con las propiedades resultantes de sesgo, 
inconsistencia, etc. Entonces, la misma ecuación puede ser estimada por otros métodos especial- 
mente diseñados para manejar el problema de simultaneidad y los resultados de los dos métodos 
pueden compararse, por lo menos, de manera cualitativa. En muchas aplicaciones los resulta- 
dos de MCO aplicado de forma inapropiada pueden no diferir mucho de aquellos obtenidos por 
métodos más complejos, como se verá más adelante. En principio, no debe haber mucha objeción 
en la presentación de resultados basados en MCO, siempre y cuando las estimaciones hechas con 
base en métodos alternos diseñados para modelos de ecuaciones simultáneas también sean pro- 
porcionadas. De hecho, este método podría dar alguna idea de qué tan malas son las estimaciones 
de MCO en situaciones en las cuales dicho método es aplicado inapropiadamente.* 


6 Nota: El símbolo con punto significa “derivada con respecto al tiempo”. Por ejemplo, P + dP/dt. Para se- 
ries de tiempo discretas, dP/dt en ocasiones es aproximada por AP/At, donde el símbolo A es el operador 
de primeras diferencias, que fue introducido originalmente en el capítulo 12. 

7 Es importante tener presente que se está suponiendo que las perturbaciones entre ecuaciones no están 
correlacionadas contemporáneamente. Si éste no es el caso, puede ser que se deba recurrir a la técnica de 
estimación SURE (regresiones aparentemente no relacionadas) de Zellner para estimar los parámetros del 
sistema recursivo. Véase A. Zellner, “An Efficient Method of Estimating Seemingly Unrelated Regressions and 
Tests for Aggregation Bias”, Journal of the American Statistical Association, vol. 57, 1962, pp. 348-368. 

8 Puede mencionarse que en muestras pequeñas, los estimadores alternativos, al igual que los estimadores 


por MCO, también son sesgados. Pero el estimador de MCO tiene la “virtud” de tener varianza mínima 
entre estos estimadores alternativos. Pero esto es cierto sólo para muestras pequeñas. 
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20.3 Estimación de una ecuación exactamente identificada: 
el método de mínimos cuadrados indirectos (MCI) 


Para una ecuación estructural precisa o exactamente identificada, el método para obtener las esti- 
maciones de los coeficientes estructurales a partir de las estimaciones por MCO de los coeficien- 
tes en forma reducida se conoce como método de mínimos cuadrados indirectos (UCD, y las 
estimaciones así obtenidas se conocen como estimaciones de mínimos cuadrados indirectos. 
MCI comprende los tres pasos siguientes: 


Paso 1. Se obtienen primero las ecuaciones en forma reducida. Como se mencionó en 

el capítulo 19, éstas se obtienen de las ecuaciones estructurales en forma tal que la varia- 
ble dependiente en cada ecuación es la única variable endógena y está en función úni- 
camente de las variables predeterminadas (exógenas o endógenas rezagadas) y del (los) 
término(s) de error(es) estocástico(s). 

Paso 2. Se aplica MCO individualmente a las ecuaciones en la forma reducida. Esta 
operación es permisible puesto que las variables explicativas en estas ecuaciones están pre- 
determinadas y, por tanto, no están correlacionadas con las perturbaciones estocásticas. Las 
estimaciones así obtenidas son consistentes.” 


Paso 3. Se obtienen estimaciones de los coeficientes estructurales originales a partir de los 
coeficientes en forma reducida estimados, obtenidos en el paso 2. Como se mencionó en el 
capítulo 19, si una ecuación está exactamente identificada, hay una correspondencia uno a 
uno entre los coeficientes estructurales y los coeficientes en la forma reducida; es decir, pue- 
den derivarse estimaciones únicas de los primeros a partir de los últimos. 


Como lo indica este procedimiento de tres etapas, el nombre de MCI se deriva del hecho de 
que los coeficientes estructurales (objeto principal de investigación en la mayoría de los casos) 
se obtienen indirectamente a partir de las estimaciones por MCO de los coeficientes en forma 
reducida. 


Ejemplo ilustrativo 


Considere el modelo de demanda y oferta presentado en la sección 19.2, el cual, por convenien- 
cia, está dado en seguida con un ligero cambio en la notación: 


Función de demanda: O,=0%+01P, +09X, + 41, (20.3.1) 
Función de oferta: O, = Bo + 61 P; + uzi (20.3.2) 
en donde O = cantidad 
P = precio 


X = ingreso o gasto 


Suponga que X es exógena. Como se mencionó antes, la función de oferta está exactamente iden- 
tificada, en tanto que la función de demanda no lo está. 

Las ecuaciones en forma reducida correspondientes a las ecuaciones estructurales anteriores 
son: 


P, = To + IX, +w; (20.3.3) 
Q, = IL + ILX, + v, (20.3.4) 


? Además de ser consistentes, las estimaciones “pueden ser las mejores insesgadas y/o asintóticamente efi- 
cientes respectivamente, dependiendo de que: (i) las z [= X] sean exógenas y no simplemente predetermi- 
nadas [es decir, que no contengan valores rezagados de variables endógenas] y/o (ii) la distribución de las 
perturbaciones sea normal”. (W.C. Hood y Tjalling C. Koopmans, Studies in Econometric Method, John Wiley 
& Sons, Nueva York, 1953, p. 133.) 
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en donde las TI son los coeficientes en la forma reducida y son combinaciones (no lineales) de los 
coeficientes estructurales, como se muestra en las ecuaciones (19.2.16) y (19.2.18), y donde w y 
v son combinaciones lineales de las perturbaciones estructurales u; y u2. 

Observe que cada ecuación en la forma reducida contiene una sola variable endógena, que es 
la dependiente y está en función únicamente de la variable exógena X (el ingreso) y de las pertur- 
baciones estocásticas. Por tanto, los parámetros de las ecuaciones en la forma reducida anteriores 
pueden ser estimados por MCO. Las estimaciones son: 


fi, = 224 (20.3.5) 
Ex 

Mo =P =X (20.3.6) 
^ Y qix 

ll = 20.3.7 

= ( ) 

Mm =0-ñfX (20.3.8) 


en donde las letras en minúsculas, como es usual, denotan desviaciones de las medias muestra- 
les, y O y P son los valores de la media muestral de O y de P. Como se indicó antes, las TI; son 
estimadores consistentes y, bajo los supuestos apropiados, también son insesgados, con varianza 
mínima o asintóticamente eficientes (véase nota 9 de pie de página). 

Puesto que el objetivo principal es determinar los coeficientes estructurales, se verá si es posi- 
ble estimarlos a partir de los coeficientes en forma reducida. Ahora, como se indicó en la sección 
19.2, la función de oferta está exactamente identificada. Por consiguiente, sus parámetros pueden 
estimarse de manera única a partir de los coeficientes en forma reducida del siguiente modo: 


I 
M 
Por tanto, las estimaciones de estos parámetros pueden obtenerse a partir de las estimaciones de 
los coeficientes en forma reducida como 


Bo = Ih — flo y Bi 


Bo = Ñ — B Mo (20.3.9) 
A Îi; 

za (20.3.10) 
Bi ñ 


que son los estimadores por MCI. Observe que los parámetros de la función de demanda no pue- 
den ser estimados de esta forma (sin embargo, véase el ejercicio 20.13). 

Para dar algunos resultados numéricos, se obtuvo la información que aparece en la tabla 20.1. 
Primero se estiman las ecuaciones en la forma reducida, efectuando separadamente las regresio- 
nes del precio y de la cantidad sobre el gasto de consumo real per cápita. Los resultados son los 
siguientes: 


P,= 90.9601 + 0.0007X, 
ee= (4.0517) (0.0002) (20.3.11) 
t = (22.4499) (3.0060) R? = (0.2440) 


Ô, = 59.7618 + 0.0020X, 
ee = (1.5600) (0.00009) (20.3.12) 
t = (38.3080) (20.9273) R? = 0.9399 


Al utilizar las ecuaciones (20.3.9) y (20.3.10), se obtienen estas estimaciones por MCI: 


A 


Êo = —183.7043 (20.3.13) 
Êi = 2.6766 (20.3.14) 


TABLA 20.1 
Producción de cultivos, 
precios de cultivos y 
gasto de consumo perso- 
nal per cápita, en dólares 
de 2007; Estados Unidos, 
1975-2004 


Fuente: Economic Report of the 
President, 2007. Datos sobre O 
(tabla B-99), sobre P (tabla 
B-101) y sobre X (tabla B-31). 
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Índice de precios de 
Índice de producción cultivos que se pagan Gasto de consumo 


de cultivos a los agricultores personal real 
Observación (1996 = 100), Q (1990-1992 = 100), P per cápita, X 
1975 66 88 4 789 
1976 67 87 5 282 
1977 71 83 5 804 
1978 73 89 6417 
1979 78 98 7 073 
1980 75 107 7716 
1981 81 111 8 439 
1982 82 98 8 945 
1983 71 108 9775 
1984 81 111 10 589 
1985 85 98 11 406 
1986 82 87 12 048 
1987 84 86 12 766 
1988 80 104 13 685 
1989 86 109 14 546 
1990 90 103 15 349 
1991 90 101 15 722 
1992 96 101 16 485 
1993 91 102 17 204 
1994 101 105 18 004 
1995 96 112 18 665 
1996 100 127 19 490 
1997 104 115 20 323 
1998 105 107 21 291 
1999 108 97 22 491 
2000 108 96 23 862 
2001 108 99 24 722 
2002 107 105 25 501 
2003 108 111 26 463 
2004 112 117 27 937 


Por consiguiente, la regresión estimada por MCI es!'% 


A 


O, = —183.7043 + 2.6766 P; (20.3.15) 


Para comparar, se dan los resultados de la regresión por MCO (aplicado de manera inapro- 
piada) de O sobre P: 


Ô, = 20.89 + 0.673P, 
ee = (23.04) (0.2246) (20.3.16) 
t= (0.91) (2.99) R? = 0.2430 


Estos resultados muestran cómo MCO puede distorsionar el “verdadero” panorama cuando se 
aplica en situaciones inapropiadas. 


10 No se han presentado los errores estándar de los coeficientes estructurales estimados porque, como ya se 
mencionó, estos coeficientes generalmente son funciones no lineales de los coeficientes en la forma redu- 
cida y no hay un método simple de estimar sus errores estándar a partir de los errores estándar de los co- 
eficientes en la forma reducida. Para tamaños de muestra grandes, sin embargo, los errores estándar de los 
coeficientes estructurales pueden ser obtenidos aproximadamente. Para mayores detalles, véase Jan Kmenta, 
Elements of Econometrics, Macmillan, Nueva York, 1971, p. 444. 
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Propiedades de los estimadores por MCI 


Se ha visto que los estimadores de los coeficientes en forma reducida son consistentes y, bajo los 
supuestos apropiados, también los mejores insesgados o asintóticamente eficientes (véase nota 9 
de pie de página). ¿Se trasladan estas propiedades a los estimadores por MCI? Puede demostrarse 
que los estimadores por MCI heredan todas las propiedades asintóticas de los estimadores en 
forma reducida, tales como consistencia y eficiencia asintótica. Pero propiedades (de muestras 
pequeñas) tales como insesgamiento generalmente no continúan siendo válidas. En el apéndice 
20A, sección 20A.1, se demuestra que los estimadores por MCI Bo y $1 de la función de oferta 
dados anteriormente son sesgados, pero el sesgo desaparece a medida que el tamaño de la mues- 
tra aumenta indefinidamente (es decir, los estimadores son consistentes).!' 


20.4 Estimación de una ecuación sobreidentificada: 


método de mínimos cuadrados en dos etapas (MC2E) 


Considere el siguiente modelo: 


Función de ingreso: Yu = Bio + + BuYa + VX + y12421 + Uy, 

(20.4.1) 
Función de Ya, = b20 + BarYi + Uy 
oferta monetaria: (20.4.2) 


en donde Y; = ingreso 
Y, = existencias de dinero 
Xı = gasto de inversión 
X> = gasto del gobierno en bienes y servicios 


Las variables X; y X2 son exógenas. 

La ecuación de ingreso, un híbrido de los enfoques de las teorías cuantitativa y keynesiana de 
la determinación del ingreso, establece que el ingreso está determinado por la oferta monetaria, 
el gasto de inversión y el gasto del gobierno. La función de la oferta monetaria postula que las 
existencias de dinero están determinadas (por el Sistema de la Reserva Federal) con base en el 
nivel del ingreso. Como es obvio, se tiene un problema de ecuaciones simultáneas, el cual puede 
verificarse mediante la prueba de simultaneidad estudiada en el capítulo 19. 

Al aplicar la condición de orden para la identificación, puede verse que la ecuación del ingreso 
está subidentificada, en tanto que la ecuación de la oferta monetaria está sobreidentificada. Es 
poco lo que puede hacerse sobre la ecuación del ingreso, a no ser que se altere la especificación 
del modelo. La función de la oferta monetaria sobreidentificada no puede estimarse mediante 
MCI porque hay dos estimaciones de 6»; (el lector debe verificar esto por medio de los coeficien- 
tes en la forma reducida). 

A manera de práctica, puede aplicarse MCO a la ecuación de la oferta monetaria, pero las 
estimaciones obtenidas por este mecanismo serán inconsistentes en vista de la probable corre- 
lación entre la variable explicativa estocástica Y; y el término de perturbación estocástico u2. 
Suponga, sin embargo, que se encuentra una “variable representante” para la variable explicativa 
estocástica Y4, tal que, aunque “se parece” a Yı (en el sentido de que está altamente correla- 
cionada con Y;), no está correlacionada con u2. Tal variable se conoce también como variable 
instrumental (véase el capítulo 17). Si se puede encontrar tal variable representante, puede uti- 
lizarse MCO directamente para estimar la función de oferta monetaria. Pero ¿cómo se obtiene 


11 Intuitivamente esto puede verse de la siguiente manera: E($1) = f1 si E(Ô3/Ô1) = (13/111). Ahora bien, 
aun si E(f3) = M3 y E(M) = M1, puede demostrarse que E(M3/111) + E(113)/E(111); es decir, la esperanza de 
la razón de dos variables no es igual a la razón de las esperanzas de las dos variables. Sin embargo, como se 
muestra en el apéndice 204.1, plím (Î3/ÂÎ1) = plim (f3)/plím (1) = M13/11,), puesto que Î; y Îı son estima- 
dores consistentes. 


Capítulo 20 Métodos de ecuaciones simultáneas 719 


semejante variable instrumental? Una respuesta está dada por el método de mínimos cuadrados 
en dos etapas (MC2E), desarrollado independientemente por Henri Theil'? y Robert Basmann.” 
Como lo indica el nombre, el método comprende dos aplicaciones sucesivas de MCO. El proceso 
es el siguiente: 


Etapa 1. Para eliminar la correlación probable entre Yı y u2, efectúe primero la regresión 
de Yı sobre todas las variables predeterminadas en el sistema completo, no solamente en esa 
ecuación. En el presente caso, esto significa efectuar la regresión de Y, sobre X y Xz de la 
siguiente manera: 


Yi, = To + Xy, + 1 Xz; +u; (20.4.3) 
donde ú, son los residuos de MCO tradicionales. De la ecuación (20.4.3) se obtiene 
Îi, = flo + Îi Xi + MX; (20.4.4) 


donde Y;, es una estimación del valor medio de Y condicional de las X fijas. Observe que 
(20.4.3) no es otra cosa que una regresión en forma reducida porque solamente las variables 
exógenas o predeterminadas aparecen en el lado derecho. 

La ecuación (20.4.3) puede expresarse ahora como 


Yi =Y,+% (20.4.5) 


lo cual muestra que la Y, estocástica consta de dos partes: Y1; que es una combinación lineal 
de las X no estocásticas, y un componente aleatorio í,. Siguiendo la teoría de MCO, Y, y û, 
no están correlacionadas. (¿Por qué?) 


Etapa 2. La ecuación sobreidentificada de la oferta monetaria puede escribirse ahora como 
Ya, = Bao + Bal Yi + 01) + uz 
= Bao + Bari + (u2: + Barúis) (20.4.6) 
= Bao + Bar Yi + ut 


en donde u¥ = uz, + Ba1Ú,. 

Al comparar la ecuación (20.4.6) con la ecuación (20.4.2), se observa que son muy simi- 
lares en apariencia, siendo la única diferencia que Y; ha sido reemplazada por Y¡. ¿Cuál es 
la ventaja de la ecuación (20.4.6)? Puede mostrarse que aunque en la ecuación original de 
oferta monetaria Y, está correlacionada o es probable que esté correlacionada con el término 
de perturbación uz (de aquí resulta que MCO sea inapropiado), Yı; en la ecuación (20.4.6) no 
está correlacionada con u; asintóticamente, es decir, en muestras grandes (o en forma más 
precisa, a medida que el tamaño de la muestra aumenta indefinidamente). Como resultado, 
puede aplicarse MCO a la ecuación (20.4.6), lo cual dará estimaciones consistentes de los 
parámetros de la función de oferta de dinero.'* 


12 Henri Theil, “Repeated Least-Squares Applied to Complete Equation Systems”, The Hague Oficina Central 
de Planeación, Países Bajos, 1953 (mimeografiada). 

13 Robert L. Basmann, “A Generalized Classical Method of Linear Estimation of Coefficients in a Structural 
Equation”, Econometrica, vol. 25, 1957, pp. 77-83. 

14 Observe que en muestras pequeñas es probable que Îi: esté correlacionada con u;. La razón es la siguien- 
te: de la ecuación (20.4.4) se ve que Y1¿ es una combinación lineal ponderada de las X predeterminadas 

con las Ñ como ponderaciones. Ahora, aun si las variables predeterminadas son verdaderamente no es- 
tocásticas, las fl, siendo estimadores, son estocásticas. Por consiguiente, ıt también es estocástica. Ahora 
bien, del análisis de las ecuaciones en la forma reducida y de la estimación de mínimos cuadrados indirectos, 
es claro que los coeficientes en la forma reducida, las f, son funciones de las perturbaciones estocásticas, 
tales como uz. Puesto que Y; ; depende de las Î, es probable que esté correlacionada con uz, que es un com- 
ponente de už; como resultado, se espera que Y¡ 1 esté correlacionada con uf. Pero, como se mencionó, esta 
correlación desaparece a medida que el tamaño de la muestra tiende a infinito. La desventaja de todo 

esto es que en muestras pequeñas, el procedimiento de MC2E puede conducir a estimaciones sesgadas. 
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Como lo indica este procedimiento de dos etapas, la idea básica detrás de MC2E es “purifi- 
car” la variable explicativa estocástica Y; de la influencia de la perturbación estocástica u2. Este 
objetivo se logra efectuando la regresión en forma reducida de Y, sobre todas las variables pre- 
determinadas en el sistema (etapa 1), obteniendo las estimaciones Yı, y reemplazando Y, en la 
ecuación original por las Yı; estimadas, para luego aplicar MCO a la ecuación así transformada 
(etapa 2). Los estimadores así obtenidos son consistentes, es decir, convergen hacia sus verdade- 
ros valores a medida que el tamaño de la muestra aumenta indefinidamente. 

Para ilustrar MC2E aún más, se modifica el modelo ingreso-oferta monetaria de la siguiente 
manera: 


Yi = Bio + BuYa + YA + y12 Az + Ut (20.4.7) 

Ya, = P20 + BarYi + Y23A3 + Y24X4, + Uzr (20.4.8) 
en donde, además de las variables ya definidas, X3 = el ingreso en el periodo anterior y X4 = la 
oferta monetaria en el periodo anterior. Tanto X3 como Xy son predeterminadas. 

Puede verificarse fácilmente que ambas ecuaciones (20.4.7) y (20.4.8) están sobreidentifica- 
das. Para aplicar MC2E se procede de la siguiente manera: en la etapa 1 se efectúa la regresión 
de las variables endógenas sobre todas las variables predeterminadas en el sistema. Así, 

Yu = Mio + Mi Xu + Ô 2X + M3 Mo, + Mia Xas + âu (20.4.9) 
Ya, = Moo + MXi + MX, + M3 M3, + Mos X4s + ûz (20.4.10) 
En la etapa 2 se remplazan Y, y Y, en las ecuaciones originales (estructurales) por sus valores 


estimados de las dos regresiones anteriores, y luego se efectúan las regresiones por MCO de la 
siguiente manera: 


Y = Bio + Bia Por + V11 Xiu + VX + u$, (20.4.11) 
Yo, = Bao + B21 Yir + V23X3t + ya X4r + 45, (20.4.12) 


en donde uí, = u1: + i2ûz: y û3, = Uz + B2101,. Las estimaciones así obtenidas serán consis- 
tentes. 
Observe las siguientes características de MC2E, 


1. Puede aplicarse a una ecuación individual en el sistema sin tener en cuenta directamente nin- 
guna otra ecuación o ecuaciones en el mismo. Por tanto, para resolver modelos econométricos 
que contienen un gran número de ecuaciones, MC2E ofrece un método económico. Por esta 
razón, el método ha sido extensamente utilizado en la práctica. 


2. A diferencia de MCI, que proporciona múltiples estimaciones de los parámetros en las ecua- 
ciones sobreidentificadas, MC2E proporciona solamente una estimación por parámetro. 


3. Es fácil de aplicar porque todo lo que se necesita saber es el número total de variables exóge- 
nas o predeterminadas en el sistema sin conocer ninguna otra variable en el mismo. 


4. Aunque está especialmente diseñado para manejar ecuaciones sobreidentificadas, el método 
también puede ser aplicado a ecuaciones exactamente identificadas. Pero entonces MCI y 
MCZE darán estimaciones idénticas. (¿Por qué?) 


5. Si los valores de R? en las regresiones en forma reducida (es decir, regresiones de la primera 
etapa) son muy altos, por ejemplo, superan 0.8, las estimaciones clásicas por MCO y las de 
MCZE estarán muy cercanas. No obstante, este resultado no debe sorprender porque si el 
valor de R° en la primera etapa es muy alto, significa que los valores estimados de las varia- 
bles endógenas están muy cercanos a sus valores observados y, por tanto, es menos probable 
que estas últimas estén correlacionadas con las perturbaciones estocásticas en las ecuaciones 
estructurales originales. (¿Por qué?)! Sin embargo, si los valores de R? en las regresiones de 


15 En caso extremo, si R? = 1 en la regresión de la primera etapa, la variable explicativa endógena en la 
ecuación original (sobreidentificada) será prácticamente no estocástica. (¿Por qué?) 
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la primera etapa son muy bajos, las estimaciones por MC2E prácticamente no tendrán signi- 
ficado porque se estarán remplazando las Y originales en las regresiones de la segunda etapa 
por las Y estimadas en las regresiones de la primera etapa, las cuales representarán esencial- 
mente las perturbaciones en las regresiones de esta etapa. En otras palabras, en este caso, las 
Y serán “variables representantes” muy deficientes de las Y originales. 


6. Observe que en los resultados de la regresión por MCI en la ecuación (20.3.15) no se determi- 
naron los errores estándar de los coeficientes estimados (por las razones explicadas en la nota 
10 de pie de página). Pero éstos pueden ser determinados para las estimaciones por MC2E 
puesto que los coeficientes estructurales son estimados directamente de las regresiones de la 
segunda etapa por MCO. Sin embargo, debe tenerse precaución en un aspecto. Los errores es- 
tándar estimados en las regresiones de la segunda etapa deben ser modificados porque, como 
se observó en la ecuación (20.4.6), el término de error u5 es, en realidad, el término de error 
original, u2, más B21ú,. Por tanto, la varianza de uf no es exactamente igual a la varianza de 
Uz; Original. Sin embargo, la modificación requerida puede realizarse fácilmente mediante la 
fórmula dada en el apéndice 20A, sección 20A.2, 


7. Al utilizar MC2E, tenga en mente las siguientes observaciones de Henri Theil: 


La justificación estadística de MC2E es del tipo de muestras grandes. Cuando no hay variables endó- 
genas rezagadas,... los estimadores de los coeficientes por MC2E son consistentes si las variables 
exógenas son constantes en muestras repetidas y si las perturbaciones [que aparecen en las diversas 
ecuaciones de comportamiento o estructurales]... son independientes e idénticamente distribuidas con 
medias cero y varianzas finitas... Si estas dos condiciones se satisfacen, la distribución muestral de los 
estimadores de los coeficientes por MC2E se aproxima a la normal para muestras grandes... 

Cuando el sistema de ecuaciones contiene variables endógenas rezagadas, la consistencia y la 
normalidad de muestras grandes de los estimadores de los coeficientes por MC2E requieren una 
condición adicional,... que a medida que la muestra aumenta, el cuadrado de la media de los valores 
tomados por cada variable endógena rezagada converja en probabilidad hacia un límite positivo... 

Si [las perturbaciones que aparecen en las diversas ecuaciones estructurales] no están distribuidas 
independientemente, las variables endógenas rezagadas no son independientes del funcionamiento 
actual del sistema de ecuaciones..., lo que significa que estas variables no son realmente predeter- 
minadas. Por consiguiente, si estas variables son consideradas como predeterminadas en el procedi- 
miento de MC2E, los estimadores resultantes no son consistentes.!ó 


20.5 MC2E: ejemplo numérico 


Para ilustrar el método de MC2E, considere el modelo ingreso-oferta monetaria dado anterior- 
mente en las ecuaciones (20.4.1) y (20.4.2). Como se mostró, la ecuación de la oferta monetaria 
está sobreidentificada. Para estimar los parámetros de esta ecuación, se acude al método de míni- 
mos cuadrados en dos etapas. La información requerida para el análisis está dada en la tabla 20.2; 
esta tabla también contiene la información requerida para responder algunas de las preguntas 
hechas en los ejercicios. 


Regresión de la etapa 1 


Primero se efectúa la regresión de la variable explicativa estocástica ingreso Yı, representada 
por el PIB, sobre las variables predeterminadas, inversión privada X y gastos del gobierno X>, 
obteniendo los siguientes resultados: 


Êi, = 2 689.848 +  1.8700%,,+ 2.0343Xo, 
ee= (67.9874) (0.1717) (0.1075) (20.5.1) 
t= (39.5639) (10.8938) (18.9295)  R?=0.9964 


16 Henri Theil, Introduction to Econometrics, Prentice-Hall, Englewood Cliffs, N.J., 1978, pp. 341-342. 
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ud Observación PIB (Y1) M2 (Y2) IDPB (X1) GASFED (X2) BT6 (X3) 
BT6, Estados Unidos, 1970 3 771.9 626.5 427.1 201.1 6.562 
1970-2005 1971 3 898.6 710.3 475.7 220.0 4.511 
1972 4 105.0 802.3 532.1 244.4 4.466 

Fuente: Economic Report of the 1973 4 341.5 855.5 594.4 261.7 7.178 
qe ea B-2, 1974 4 319.6 902.1 550.6 293.3 7.926 
T 1975 4 311.2 1016.2 453.1 346.2 6.122 
1976 4 540.9 1152.0 544.7 374.3 5.266 

1977 4 750.5 1 270.3 627.0 407.5 5.510 

1978 5 015.0 1 366.0 702.6 450.0 7.572 

1979 5 173.4 1 473.7 725.0 497.5 10.017 

1980 5161.7 1 599.8 645.3 585.7 11.374 

1981 5 291.7 1755.4 704.9 672.7 13.776 

1982 5 189.3 1910.3 606.0 748.5 11.084 

1983 5 423.8 2126.5 662.5 815.4 8.75 

1984 5 813.6 2 310.0 857.7 877.1 9.80 

1985 6 053.7 2 495.7 849.7 948.2 7.66 

1986 6 263.6 2 732.4 843.9 1 006.0 6.03 

1987 6 475.1 2 831.4 870.0 1 041.6 6.05 

1988 6 742.7 2 994.5 890.5 1 092.7 6.92 

1989 6 981.4 3 158.5 926.2 1167.5 8.04 

1990 7112.5 3 278.6 895.1 1 253.5 7.47 

1991 7 100.5 3 379.1 822.2 1315.0 5.49 

1992 7 336.6 3 432.5 889.0 1 444.6 3.57 

1993 7 532.7 3 484.0 968.3 1 496.0 3.14 

1994 7 835.5 3 497.5 1 099.6 1 533.1 4.66 

1995 8 031.7 3 640.4 1134.0 1 603.5 5.59 

1996 8 328.9 3 815.1 1 234.3 1 665.8 5.09 

1997 8 703.5 4 031.6 1 387.7 1 708.9 5.18 

1998 9 066.9 4 379.0 1 524.1 1 734.9 4.85 

1999 9 470.3 4 641.1 1 642.6 1 787.6 4.76 

2000 9 817.0 4 920.9 1 735.5 1 864.4 5.92 

2001 9 890.7 5 430.3 1 598.4 1 969.5 3.39 

2002 10 048.8 5 774.1 1557.1 2101.1 1.69 

2003 10 301.0 6 062.0 1613.1 2 252.1 1.06 

2004 10 703.5 6 411.7 1 770.6 2 383.0 1.58 

2005 11 048.6 6 669.4 1 866.3 2 555.9 3.40 


Notas: Yı = PIB = producto interno bruto (miles de millones de dólares, ajustados al año 2000). 
Y, = M2 = oferta de dinero M2 (miles de millones de dólares). 
Xı = IDPB = inversión doméstica privada bruta (miles de millones de dólares, ajustados al año 2000). 
X = GASFED = gasto del gobierno federal (miles de millones de dólares). 
X3 = BT6 = tasa de interés de los bonos del Tesoro a 6 meses (%). 


Regresión de la etapa 2 


Se estima ahora la función de oferta monetaria (20.4.2) remplazando la variable endógena Y; por 
Y, estimada de la ecuación (20.5.1) (= Yı) . Los resultados son los siguientes: 


Yo, = —2 440.180 + 0.7920Y,, 
ee= (127.3720) (0.0178) (20.5.2) 
t= (-19.1579) (44.5246) R? = 0.9831 
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Ya se señaló que los errores estándar estimados dados en (20.5.2) deben ser corregidos en la 
forma sugerida en el apéndice 20.A, sección 20A.2. Una vez realizada esta corrección (la ma- 
yoría de los programas econométricos hacen esto rutinariamente), se obtienen los siguientes 
resultados: 


Yo; = —2 440.180 + 0.7920, 
ee= (126.9598) (0.0212) (20.5.3) 
t=  (-17.3149) (37.3057) R? = 0.9803 


Como se menciona en el apéndice 20A, sección 20A.2, los errores estándar dados en (20.5.3) 
no difieren mucho de aquellos dados en (20.5.2), debido a que R? en la regresión de la primera 
etapa es muy alto. 


Regresión por MCO 

Con fines comparativos, se presenta la regresión de las existencias de dinero sobre el ingreso, 
como se muestra en la ecuación (20.4.2), sin “depurar” la Yı; estocástica de la influencia del tér- 
mino de perturbación estocástica: 


Yo, = —2 195.468 + 0.7911Y;, 
ee= (126.6460) (0.0211) (20.5.4) 
t=  (=17.3354) (37.3812) R? = 0.9803 


Al comparar los resultados “inapropiados” de MCO con la regresión de la etapa 2, se observa 
que las dos regresiones son virtualmente iguales. ¿Significa esto que el procedimiento de MC2E 
no tiene ningún valor? Definitivamente no. No debe sorprender que en la situación actual los dos 
resultados sean prácticamente idénticos porque, como se mencionó anteriormente, el valor del 
R? en la primera etapa es muy alto, igualando prácticamente Yı; con Yı, observado. Por consi- 
guiente, en este caso las regresiones por MCO y de la segunda etapa serán más o menos similares. 
Pero no hay garantía de que esto suceda en cada aplicación. Una implicación, entonces, es que en 
ecuaciones sobreidentificadas no debe aceptarse el procedimiento clásico de MCO sin verificar 
la(s) regresión(es) de la segunda etapa. 


Simultaneidad entre el PIB y la oferta monetaria 
Para averiguar si el PIB (Y1) y la oferta monetaria (Y2) son mutuamente dependientes, se utiliza 
la prueba de simultaneidad de Hausman analizada en el capítulo 19. 

Primero se efectúa la regresión del PIB sobre X (gasto de inversión) y X (gasto del gobierno), 
las variables exógenas en el sistema (es decir, se estima la regresión en la forma reducida). De 
esta regresión se obtiene el PIB estimado y los residuos v,, como lo indica la ecuación (19.4.7). 
Luego se efectúa la regresión de la oferta monetaria sobre el PIB estimado y sobre v; para obtener 
los siguientes resultados: 


Ya, = —2 198.297 + 0.7915? + 0.6984, 
ee= (129.0548) (0.0215) (0.2970) (20.5.5) 
t= (-17.0338) (36.70016) (2.3511) 


Puesto que el valor £ de v, es estadísticamente significativo (el valor p es 0.0263), no puede recha- 
zarse la hipótesis de simultaneidad entre la oferta monetaria y el PIB, lo cual no debe sorprender. 
(Nota: en un sentido estricto, esta conclusión es válida sólo en muestras grandes, técnicamente, 
a medida que el tamaño de la muestra aumenta de manera indefinida.) 
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Pruebas de hipótesis 

Suponga que se desea probar la hipótesis de que el ingreso no tiene efecto sobre la demanda de 
dinero. ¿Se puede probar esta hipótesis con la prueba ź usual de la regresión estimada (20.5.2)? 
Sí, siempre y cuando la muestra sea grande y se corrijan los errores estándar, como se muestra 
en la ecuación (20.5.3); se puede utilizar la prueba £ para probar la significancia de un coeficiente 
individual y la prueba F para probar la significancia conjunta de dos o más coeficientes, utili- 
zando la fórmula (8.4.7).!” 

¿Qué sucede si el término de error en una ecuación estructural está autocorrelacionado y/o 
correlacionado con el término de error de otra ecuación estructural del sistema? Una respuesta 
completa a esta interrogante se sale del alcance de este libro y es mejor dejarla para las referencias 
(véase la referencia dada en la nota 7). Sin embargo, existen técnicas de estimación (tales como la 
técnica SURE de Zellner) para manejar estas complicaciones. 

Para concluir el análisis de este ejemplo numérico, cabe añadir que los paquetes de software 
modernos, como STATA y EViews, realizan por lo regular los diferentes pasos que comprende la 
aplicación de MC2E. Sólo por motivos pedagógicos se demostraron los detalles de MC2E. Véase 
el ejercicio 20.15. 


20.6 Ejemplos ilustrativos 


En esta sección se consideran algunas aplicaciones de los métodos de ecuaciones simultáneas. 


EJEMPLO 20.1 Para estudiar las interrelaciones entre la publicidad, la concentración (medida por la razón de 
concentración) y los márgenes precio-costo, Allyn D. Strickland y Leonard W. Weiss formularon 


Publicidad, concen- eeN a de 
el siguiente modelo de tres ecuaciones. 


tración y márgenes 
de precios Función de intensidad de la publicidad: 


Ad/S= ao + aM + a2(CD/S) + aC + a? + asGr + agDur (20.6.1) 
Función de concentración: 
C= bo + b1(Ad/S) + b2(MES/S) (20.6.2) 
Función del margen precio-costo: 
M = Co + a (K/S) + c2Gr + c3C+ c4GD + cs(Ad/S) + cs(MES/S) (20.6.3) 


en donde Ad = gasto en publicidad 
S = valor de los embarques 
C = razón de concentración de cuatro empresas 
CD = demanda del consumidor 
MES = escala mínima de eficiencia 
M = margen precio/costo 
Gr = tasa de crecimiento anual de la producción industrial 
Dur = variable dicótoma para la industria de bienes durables 
K = existencias de capital 
GD = medida de la dispersión geográfica de la producción 


17 Pero hay que tener cuidado con lo siguiente: la SCR restringida y la no restringida en el numerador deben 
ser calculadas utilizando la Y pronosticada (como en la etapa 2 de MC2E) y la SCR en el denominador está 
calculada utilizando valores observados y no pronosticados de las regresoras. Para una explicación sencilla 

a este respecto, véase T. Dudley Wallace y J. Lew Silver, Econometrics: An Introduction, Addison-Wesley, Rea- 
ding, Mass., 1988, sec. 8.5. 

18 Véase su artículo “Advertising, Concentration, and Price-Cost Margins”, Journal of Political Economy, vol. 
84, núm. 5, 1976, pp. 1109-1121. 


EJEMPLO 20.1 


(continuación) 


TABLA 20.3 
Estimaciones por 
MCO de las tres ecua- 
ciones (razones í entre 
paréntesis) 


TABLA 20.4 
Estimaciones de míni- 
mos cuadrados en dos 
etapas de las tres ecua- 
ciones (razones í entre 
paréntesis) 
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Según las condiciones de orden para la identificación, la ecuación (20.6.2) está sobreidentifi- 
cada, en tanto que las ecuaciones (20.6.1) y (20.6.3) están exactamente identificadas. 
La información para el análisis provino, en gran parte, del Census of Manufacturers de 1963 


y cubrió 408 de las 417 industrias manufactureras de cuatro dígitos. Las tres ecuaciones fueron 


estimadas inicialmente por MCO, produciendo los resultados que aparecen en la tabla 20.3. 
Para corregir por el sesgo de las ecuaciones simultáneas, los autores reestimaron el modelo 
utilizando MC2E. Los resultados obtenidos se presentan en la tabla 20.4. Se deja al lector la 
comparación de los dos resultados. 


Variable dependiente 


Ad/S C M 

Ec. (20.6.1) Ec. (20.6.2) Ec. (20.6.3) 
Constante 0.0314 (-7.45) 0.2638 (25.93) 0.1682 (17.15) 
(E 0.0554 (3.56) — 0.0629 (2.89) 
ES —0.0568 (-3.38) — — 
M 0.1123 (9.84) — — 
CD/S 0.0257 (8.94) — — 
Gr 0.0387 (1.64) 0.2255 (2.61) 
Dur —0.0021 (—1.11) — — 
Ad/S — MEBI) 1.6536 (11.00) 
MES/S — 4.1852 (18.99) 0.0686 (0.54) 
K/S — — 0.1123 (8.03) 
GD — — —0.0003 (-2.90) 
R 0.374 0.485 0.402 
gl 401 405 401 

Variable dependiente 
Ad/S C M 

Ec. (20.6.1) Ec. (20.6.2) Ec. (20.6.3) 
Constante —0.0245 (-3.86) 0.2591 (21.30) 0.1736 (14.66) 
g 0.0737 (2.84) — 0.0377 (0.93) 
ES —0.0643 (-2.64) — — 
M 0.0544 (2.01) — — 
CD/S 0.0269 (8.96) — — 
Gr 0.0539 (2.09) — 0.2336 (2.61) 
Dur —0.0018 (—0.93) — — 
Ad/S — 1.5347 (2.42) 1.6256 (5.52) 
MES/S — 4.169 (18.84) 0.1720 (0.92) 
K/S — — 0.1165 (7.30) 
GD — — —0.0003 (-2.79) 


EJEMPLO 20.2 
Modelo I de Klein 


En el ejemplo 18.6 se analizó, de manera breve, el modelo pionero de Klein. Inicialmente, el mo- 
delo fue estimado para el periodo 1920-1941. Los datos básicos se presentan en la tabla 20.5, 
y las estimaciones en la forma reducida por MCO y por MC2E están dadas en la tabla 20.6. Se 
deja al lector la interpretación de estos resultados. 


(continúa) 


EJEMPLO 20.2 


(continuación) 


TABLA 20.6* 
Estimaciones por 
MCO, forma reducida 
y MCI2E del modelo I 
de Klein 


Fuente: G. S. Maddala, Econo- 


metrics, McGraw-Hill, Nueva 
York, 1977, p. 242. 


TABLA 20.5 Datos básicos para el modelo I de Klein 


Año (E P Ww l Kı X w G 

1920 39.8 12.7 28.8 2.7 180.1 44.9 2.2 2.4 
1921 41.9 12.4 25.5 -0.2 182.8 45.6 2.7 3.9 
1922 45.0 16.9 29.3 1.9 182.6 50.1 2.9 3.2 
1923 49.2 18.4 34.1 5.2 184.5 57.2 29 2.8 
1924 50.6 19.4 33.9 3.0 189.7 57.1 3.1 3.5 
1925 52.6 20.1 35.4 5.1 192.7 61.0 3.2 3.3 
1926 55.1 19.6 37.4 5.6 197.8 64.0 3.3 3.3 
1927 56.2 19.8 37.9 4.2 203.4 64.4 3.6 4.0 
1928 57.3 21.1 39.2 3.0 207.6 64.5 3.7 4.2 
1929 57.8 21.7 41.3 5.1 210.6 67.0 4.0 4.1 
1930 55.0 15.6 37.9 1.0 215.7 61.2 4.2 5.2 
1931 50.9 11.4 34.5 -3.4 216.7 53.4 4.8 DD 
1932 45.6 7.0 29.0 -6.2 213.3 44.3 5.3 4.9 
1933 46.5 11.2 28.5 -5.1 207.1 45.1 5.6 37 
1934 48.7 12.3 30.6 -3.0 202.0 49.7 6.0 4.0 
1935 51.3 14.0 33.2 -1.3 199.0 54.4 6.1 4.4 
1936 57.7 17.6 36.8 2.1 197.7 62.7 7.4 DE) 
1937 58.7 17.3 41.0 2.0 199.8 65.0 6.7 4.3 
1938 57.5 15.3 38.2 -1.9 201.8 60.9 Yol 5.3 
1939 61.6 19.0 41.6 1.3 199.9 69.5 7.8 6.6 
1940 65.0 21.1 45.0 3.3 201.2 75.7 8.0 7.4 
1941 69.7 23.5 53.3 4.9 204.5 88.4 8.5 13.8 


T 


3.4 
7.7 
3.9 
4.7 
3.8 
5.5 
7.0 
6.7 
4.2 
4.0 
7.7 
ES 
8.3 
5.4 
6.8 
7.2 
8.3 
6.7 
7.4 
8.9 
9.6 
11.6 


* La interpretación de los encabezados de las columnas se describe en el ejemplo 18.6. 


Fuente: Esta información se tomó de G. S. Maddala, Econometrics, McGraw-Hill, Nueva York, 1977, p. 238. 


MCO: 
Ĉ =16.237 + 0.193P+ 0.796(W+ W^ + 0.089P_1 R?*=0.978 DW= 1.367 
(1.203) (0.091) (0.040) (0.090) 
Î = 10.125 + 0.479P+ 0.333P_1 — 0.112K_1 R? =0.919 DW=1.810 
(5.465) (0.097) (0.100) (0.026) 
Ŵ = 0.064 + 0.439X + 0.146X—ı + 0.130t R° =0.985 DW = 1.958 


(1.151) (0.032) (0.037) (0.031) 
Forma reducida: 

P = 4e + OSa Oa 0.05% + O 0.9267 + 0.4436 
(10.870) (0.444) (0.067) (0.252) (0.154) (0.385) (0.373) 

R*=0.753 DW= 1.854 

W+W' = 40.278 + 0.823P_¡— 0.144K_¡+ 0.115X_, + 0.881t— 0.567T+ 0.8596 
(8.787) (0.359) (0.054) (0.204) (0.124) (0.311) (0.302) 

R? = 0.949 DW = 2.395 

IA E E la 
(18.860) (0.771) (0.110) (0.438) (0.267) (0.669) (0.648) 
R?=0.882 DW = 2.049 


MC2E: 
Ĉ =16.543 + 0.019P+ 0.810(W + W^) + 0.214P_1 A” = 0072 
(1.464) (0.130) (0.044) (0.118) 
Î = 20.284 + 0.149P+ 0.616P—ı — 0.157K_: R? = 0.8643 
(8.361) (0.191) (0.180) (0.040) 
Ŵ = 0.065 + 0.438X + 0.146X_¡ + 0.130t R° = 0.9852 


(1.894) (0.065) (0.070) (0.053) 


*La interpretación de las variables se presenta en el ejemplo 18.6 (los errores estándar están entre paréntesis). 
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EJEMPLO 20.3 En una aplicación poco usual de los modelos recursivos de ecuaciones simultáneas, Cheng F. Lee 
Modelo de fijación y W. P. Lloyd!? estimaron el siguiente modelo para la industria petrolera: 


de precios de ac- 


tivos de capital Rit = œ1 + y1M¿+ urt 
expresado como un Rat = œ2 + BarRie + y2Mi + uzt 
sistema recursivo 
R3¿= 03 + 31R1t + P32R2+ + y3M¿+ uz: 
Ryt = œ4 + BarRir+ B42R2t + PazR3s + yaM¿ + Ust 
Rsí=05 + Ps1R1t + B52R2t + B53R3t + PsaRar + ysM; + Ust 
Ret = œ6 + b61Rit + B62R2t + B63R3t + PosRar + PosRst + yeMt + Ust 
Rze = &œ7 + Bz1Rit + B72R2t + B73R3t + B74R4t + P75R5t + B76R6t + y7M+ + Uzt 


donde Rı = tasa de rendimiento sobre la acción 1 (= Imperial Oil) 
R2 = tasa de rendimiento sobre la acción 2 (= Sun Oil) 


R7 = tasa de rendimiento sobre la acción 7 (= Standard of Indiana) 
M, = tasa de rendimiento sobre el índice de mercado 
Uş = perturbaciones (i = 1, 2,..., 7) 


Antes de presentar los resultados, la pregunta obvia es: ¿cómo se selecciona cuál es la acción 
1, cuál es la acción 2, y así sucesivamente? Lee y Lloyd responden esta pregunta en forma empí- 
rica. Efectúan la regresión de la tasa de rendimiento de la acción i sobre las tasas de rendimiento 
de las seis acciones restantes y observan la R? resultante. Así, obtienen siete regresiones de este 
tipo. Entonces ordenan los valores de la R? estimados, de menor a mayor. La acción que tiene la 
menor R? se selecciona como la acción 1 y la que tiene la R? mayor se selecciona como la 7. 
La idea detrás de esto es intuitivamente simple. Si la R? de la tasa de rendimiento de, por ejem- 
plo, Imperial Oil es la más baja con respecto a las seis acciones restantes, esto indica que esta 
acción es la menos afectada por los movimientos en los rendimientos de las demás acciones. 
Por consiguiente, el ordenamiento causal, de existir, va de esta acción hacia las otras, y no hay 
realimentación procedente de las otras acciones. 

Aunque puede objetarse este enfoque puramente experimental del ordenamiento causal, en 
la tabla 20.7 se presentan sus resultados empíricos. 

En el ejercicio 5.5 se introdujo la línea característica de la teoría moderna de la inversión, que 
es simplemente la regresión de la tasa de rendimiento de la acción ¡sobre la tasa de rendimiento 
del mercado. El coeficiente de la pendiente, conocido como coeficiente beta, es una medida de 
la volatilidad del rendimiento de la acción. Los resultados de la regresión de Lee-Lloyd proponen 
que hay relaciones intraindustriales significativas entre los rendimientos de las acciones, además 
de la influencia común del mercado representadas por la cartera del mercado. Así, el rendi- 
miento de Standard de Indiana depende no solamente de la tasa de rendimiento del mercado 
sino, además, de las tasas de rendimiento de Shell Oil, Phillips Petroleum y Union Oil. Para plan- 
tear la idea en forma diferente, el movimiento de la tasa de rendimiento de Standard de Indiana 
puede explicarse mejor si, además de la tasa de rendimiento del mercado, se consideran las tasas 
de rendimiento obtenidas por Shell Oil, Phillips Petroleum y Union Oil. 


(continúa) 


19 “The Capital Asset Pricing Model Expressed as a Recursive System: An Empirical Investigation”, Journal of 
Financial and Quantitative Analysis, junio de 1976, pp. 237-249. 
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EJEMPLO 20.3 


(continuación) 


TABLA 20.7 Estimaciones del sistema recursivo para la industria petrolera 


Forma lineal 
Variable dependientes 


Standard Shell Phillips Union Standard Sun Imperial 


of Indiana Oil Petroleum Oil of Ohio Oil Oil 

Standard 
of Indiana 
Shell Oil 0.2100* 

(2.859) 
Phillips 0.2293* 0.0791 
Petroleum (2.176) (1.065) 
Union Oil 017541 O AO ZAS 

2472) (SAW (225/3770) 
Standard —0.0794 0.0147 0.4248*  0.1468* 
of Ohio (1.294) (0.235) (5.501) (1.735) 
Sun Oil 0.1249  0.1710* 0.0472 0.1339 0.0499 

(1.343) (1.843) (0.355) (0.908) (0.271) 
Imperial Oil 0.1077 0.0526 0.0354 0.1580 —0.2541* 0.0828 


(21.412) (0.6804) (0.319) 
Constante 0.0868 —0.0384 —0.0127 —0.2034 0.3009 0.2013 0.3710* 
(0.681) (1.296) (0.068) (0.986) (1.204) (1.399) (2.161) 
Índice de mercado  0.3681* 0.4997* 0.2884  0.7609* 0.9089* 0.7161* 0.6432* 
(2.165) (3.039) (1.232) (3.069) (3.094) (4.783) (3.774) 


(1.290) (-1.691) (0.971) 


R2 0.5020 0.4658 0.4106 0.2532 0.0985 0.2404 0.1247 
Durbin- 2.1083 2.4714 2.2306 2.3468 2.2181 2.3109 1.9592 
Watson 


* Denota significancia al nivel del 0.10 o mejor para la prueba de dos colas. 
Nota: Los valores t aparecen entre paréntesis debajo de los coeficientes. 


Fuente: Cheng F. Lee y W.P. Lloyd, op. cit., tabla 3b. 


EJEMPLO 20.4 
Forma revisada 
del modelo de 
San Luis? 


El conocido y controvertido modelo de San Luis, desarrollado originalmente a finales del dece- 
nio de los años sesenta, ha sido revisado con alguna frecuencia. Una de tales revisiones se pre- 
senta en la tabla 20.8 y los resultados empíricos basados en este modelo revisado están dados 
en la tabla 20.9. (Nota: Un punto sobre una variable representa la tasa de crecimiento de dicha 
variable.) El modelo consiste básicamente en las ecuaciones (1), (2), (4) y (5) de la tabla 20.8; las 
otras ecuaciones representan las definiciones. La ecuación (1) fue estimada por MCO. Las ecua- 
ciones (1), (2) y (4) fueron estimadas utilizando el método de rezagos distribuidos de Almon 
con restricciones (de punto final) sobre los coeficientes. En donde es pertinente, las ecuaciones 
fueron corregidas por correlación serial de primer orden (p1) y/o correlación serial de segundo 
orden (p2). 

Al examinar los resultados se observa que la tasa de crecimiento de la oferta monetaria es el 
determinante principal de la tasa de crecimiento del PIB (nominal) y no la tasa de crecimiento 
de los gastos que generan un alto nivel de empleo. La suma de los M coeficientes es 1.06, lo 
cual indica que un incremento (sostenido) de 1% en la oferta monetaria conduce, en promedio, 
a cerca de 1.06% de incremento en el PIB nominal. Por otra parte, la suma de los E coeficientes, 
cercana a 0.05, indica que un cambio en el gasto que propicia niveles altos de empleo por parte 
del gobierno tiene poco impacto sobre la tasa de crecimiento del PIB nominal. Se deja al lector 
interpretar los resultados de las demás regresiones que aparecen en la tabla 20.9. 


20 Federal Reserve Bank of St. Louis, Review, mayo de 1982, p. 14. 


EJEMPLO 20.4 


(continuación) 


TABLA 20.9 
Estimación dentro de 
la muestra: 1960-1 a 
1980-IV (el valor ab- 
soluto del estadístico £ 
está entre paréntesis) 


Fuente: Federal Reserve Bank 
of St. Louis, mayo de 1982, 
p. 14. 
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TABLA 20.8 El modelo de San Luis 


3 a ; a 
(1) Yi =C1+ Y) CM(M¿¡) +} CE(Ei)+elt 
¡=0 ¡=0 
; 4 E 5 E EA 
(2) P¿=C2+ DE CPE;¡(PE¿-;) + y CD¡(Xi-¡—XFi11) 
¡=1 ¡=0 


+ CPA(PA¿) + CDUM1(DUM1) + CDUM2(DUM2) + 82; 


a 21 : 
(3) PA; = CPRL;(P¿-;) 
i A 
(4) RL; = C3 + Y CPRL;(P ii) +83: 
10) 
(5) U: = UF; = CG(GAP;) + CG1 (GAP;_1) SF E4: 
(6) Y: = (P/100)(X9 
09) Y, = [Y Y—)* — 11100 
(8) Xi = [(X/X:-* — 11100 
(9) P, = [(P/Pi-)* — 11100 
(10) GAP; = [(XF¿/Xp9/XF¿]100 
(11) XF?= [(XF/X1)* — 1]100 
Y = PIB nominal RL = tasa de los bonos empresariales 
M = existencias de dinero (M1) U = tasa de desempleo 
E = gastos que arrojan un alto nivel de empleo UF = tasa de desempleo en pleno empleo 
P = deflactor del PIB (1972 = 100) DUM! = variable dicótoma de control (1971-III a 1973-I = 1; 
PE = precio relativo de la energía 0 en los demás casos) 
X= producción en dólares de 1972 DUM2 = variable dicótoma de control posterior (1973-11 a 1975-I = 1; 
XF = producción potencial (Rasche/Tatom) 0 en los demás casos) 


Fuente: Federal Reserve Bank of St. Louis, Review, mayo de 1982, p. 14. 


(1) Y,= 2.44 + 0.40M:+ 0.39M + 0.22M+_2+ 0.06M-3— 0.01 Mia 
(2.15) (3.38) (5.06) (2.18) (0.82) (0.11) 
+ 0.06E¿+ 0.02E;-1 — 0.02£;-2 — 0.02£;-3 + 00E 
(1.46) (0.63) (0.57) (0.52) (0.34) 
R2=0.39 ee=3.50  DW=2.02 


(2) P¿= 0.96 + 0.01PE;_1 + 0.04PE;_2— 0.01PE,_3 + 0.02PE,_4 

(2.53) (0.75) (1.96) (0.73) (1.38) 

= OUT. 5) ODO) e QAO. EL) 
(0.18) (1.43) (4.63) 

a OA | = Met) DO a ra o OOO s= ELO) 
(3.00) (2.42) (2.16) 

+  1(03(PA¿) — 0.61(DUM1)+ 1.65(DUM2,) 
(10.49) (1.02) (2.71) 


R?=0.80 ee = 1,23 DW= 1.97 p=0,12 


—_— 20 . 
(4) SA h 
¡0 
(3.12) (5.22) 
R2=032 ee=033 DW=176 ¿=094 
(5) U T= 0.28(GAP)+ 0.14(GAP;_1) 


(11.89) (6.31) 
R? = 0.63 ee=0.17 DW=1.95 Pp=1.43  f=0.52 
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Resumen y 1. Si en un modelo de ecuaciones simultáneas una ecuación está identificada (en forma exacta o 
sobreidentificada), se dispone de diversos métodos para estimarla. 

2. Estos métodos se clasifican en dos categorías generales: métodos uniecuacionales y métodos 
de sistemas. 

3. Por razones de economía, errores de especificación, etc., los métodos uniecuacionales son los 
más comunes. Una característica única de estos métodos es que es posible estimar aislada- 
mente una ecuación que forma parte de un modelo multiecuacional sin preocuparse mucho de 
las otras ecuaciones del sistema. (Nota: Para fines de identificación, sin embargo, las demás 
ecuaciones en el sistema sí cuentan.) 

4. Tres métodos uniecuacionales comúnmente utilizados son: MCO, MCI y MC2E. 

5. Aunque el de MCO en general es inapropiado en el contexto de los modelos de ecuaciones 
simultáneas, puede ser aplicado a los modelos recursivos en donde hay una relación causa y 
efecto definida pero unidireccional entre las variables endógenas. 

6. El método de MCI es apropiado para ecuaciones precisas o exactamente identificadas. Me- 
diante este método, se aplica MCO a la ecuación en la forma reducida, y es a partir de los 
coeficientes de dicha forma que se estiman los coeficientes estructurales originales. 

7. El método de MC2E está diseñado en especial para ecuaciones sobreidentificadas, aunque 
también puede aplicarse a ecuaciones exactamente identificadas. Pero entonces los resultados 
de MC2E y MCI son idénticos. La idea básica detrás de MC2E es reemplazar la variable 
explicativa endógena (estocástica) por una combinación lineal de variables predeterminadas 
en el modelo y utilizar esta combinación como variable explicativa en lugar de la variable en- 
dógena original. El método MC2E se parece entonces al método de estimación de variables 
instrumentales, en el cual la combinación lineal de las variables predeterminadas sirve como 
instrumento o variable representante para la regresora endógena. 

8. Una característica importante sobre MCI y MC2E es que las estimaciones obtenidas son con- 
sistentes; es decir, a medida que el tamaño de la muestra aumenta indefinidamente, las esti- 
maciones convergen hacia sus verdaderos valores poblacionales. Las estimaciones pueden 
no satisfacer las propiedades de muestra pequeña tales como el insesgamiento y la varianza 
mínima. Por consiguiente, los resultados obtenidos mediante la aplicación de estos métodos 
a muestras pequeñas, así como las inferencias obtenidas de ellos deben ser interpretados con 
la debida precaución. 


conclusiones 


EJERCICIOS Preguntas 
20.1 Determine si cada una de las siguientes afirmaciones es verdadera o falsa: 
a) El método de MCO no es aplicable para estimar una ecuación estructural en un mo- 
delo de ecuaciones simultáneas. 
b) En caso de que una ecuación no sea identificada, MC2E no es aplicable. 
c) El problema de la simultaneidad no surge en un modelo recursivo de ecuaciones si- 
multáneas. 
d) Los problemas de simultaneidad y de exogeneidad significan lo mismo. 
e) El método de MC2E y otros métodos de estimación de ecuaciones estructurales tie- 
nen propiedades estadísticas deseables solamente en muestras grandes. 
f) En los modelos de ecuaciones simultáneas no existe un concepto similar al de R?. 
*9) El método de MC2E y otros métodos de estimación de ecuaciones estructurales no 
son aplicables si los errores de la ecuación están autocorrelacionados y/o están corre- 
lacionados entre ecuaciones. 
h) Si una ecuación está exactamente identificada, MCI y MC2E dan resultados idénti- 
cos. 


* Opcional. 


20.2. 


20.3. 


20.4. 


120.5. 
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¿Por qué no es necesario aplicar el método de mínimos cuadrados en dos etapas a ecua- 
ciones exactamente identificadas? 


Considere el siguiente modelo keynesiano modificado de determinación del ingreso: 


Cr = Bro + nY: + uz; 
l, = Bao + Ba1Y, + Ba2Y,-1 + Uos 
Y, = C; ar I, F G; 


en donde C = gasto de consumo 
I = gasto de inversión 
Y = Ingreso 
G = gasto del gobierno 
G: y Y, | se suponen predeterminados. 


a) Obtenga las ecuaciones en forma reducida y determine cuáles de las ecuaciones ante- 
riores están identificadas (en forma exacta o sobreidentificadas). 

b) ¿Cuál método puede utilizarse para estimar los parámetros de la ecuación sobreiden- 
tificada y de la ecuación exactamente identificada? Justifique la respuesta. 


Considere los siguientes resultados:* 


MCO: W,=0.276+0.258P, + 0.046B,_, + 4.9591, R? = 0.924 
MCO: P, = 2.693 + 0.232 — 0.544X, +0.247M, + 0.064M,_, R? = 0.982 
MC2E: W, = 0.272 +0.257B, + 0.046È,_1 + 4.9667; R? = 0.920 
MC2E: P, = 2.686 + 0.233W, — 0.544%, +0.246M, + 0.046M,_, R? = 0.981 


en donde W,, P,, M, y X, son los cambios porcentuales en las ganancias, los precios, 
los precios de importación y la productividad laboral (todos los cambios porcentuales se 
calculan con base en el año anterior), respectivamente, y donde V, representa las vacantes 
de empleo sin ocupar (porcentaje del número total de empleados). 

“Puesto que los resultados de MCO y MC2E son prácticamente idénticos, MC2E no 
tiene ningún valor.” Comente. 


Suponga que la producción está caracterizada por la función de producción Cobb- 
Douglas 


O; = ARFL; 
en donde O = producción 
K = insumo capital 
L = insumo trabajo 
A, a y $ = parámetros 
i = ¡-ésima empresa 
Dado el precio de la producción final P, el precio del trabajo W y el precio del capital R, 


y suponiendo maximización de utilidades, se obtiene el siguiente modelo empírico de 
producción: 


Función de producción: 


In Q; = ln A +a ln K; + ln L; + lnu (1) 


* Fuente: Prices and Earnings in 1951-1969: An Econometric Assessment, Department of Employment, Reino 
Unido, Her Majesty's Stationery Office, Londres, 1971, p. 30. 


t Opcional. 
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Función del producto marginal del trabajo: 

nQ; = -Inf + In Li +n + nui (2) 
Función del producto marginal del capital: 

nQ; = -Ina + In K; + 1n $ + Inus (3) 


en donde u1, u2 y uz son las perturbaciones estocásticas. 
En el modelo anterior hay tres ecuaciones con tres variables endógenas O, L y K. P, R 
y W son exógenas. 


a) ¿Cuáles problemas se encuentran al estimar el modelo si æ + 6 = 1, es decir, cuando 
hay rendimientos constantes a escala? 


b) Aun sia + 8 Æ 1, ¿se pueden estimar las ecuaciones? Responda considerando la 
identificación del sistema. 


c) Si el sistema no está identificado, ¿qué puede hacerse para convertirlo en identifica- 
ble? 


Nota: Las ecuaciones (2) y (3) se obtienen al diferenciar O con respecto al trabajo y al 
capital, respectivamente, igualándolos a W/P y R/P, transformando las expresiones re- 
sultantes en logaritmos y agregando (el logaritmo de) los términos de perturbación. 


20.6. Considere el siguiente modelo de demanda y oferta de dinero: 
Demanda de dinero: M? = Bo+ BY + P2R, + fP3P, + Uy 
Oferta de dinero: M; = 0 + 01Y, + ux 


en donde M = dinero 


Y = ingreso 
R = tasa de interés 
P = precio 


Suponga que R y P están predeterminados. 

a) ¿Está identificada la función de demanda? 

b) ¿Está identificada la función de oferta? 

c) ¿Cuál método se utilizaría para estimar los parámetros de la(s) ecuación(es) 
identificada(s)? ¿Por qué? 

d) Suponga que se modifica la función de oferta agregando las variables explicativas 
Y,—ı y Mı. ¿Qué sucede con el problema de la identificación? ¿Se utilizaría aún el 
método que utilizó en (c)? ¿Por qué sí o por qué no? 


20.7. Remítase al ejercicio 18.10. Para el sistema de dos ecuaciones se obtuvieron las ecuacio- 
nes en forma reducida y se estimaron sus parámetros. Estime la regresión por mínimos 
cuadrados indirectos del consumo sobre el ingreso y compare los resultados con la regre- 
sión por MCO. 

Ejercicios empíricos 

20.8. Considere el siguiente modelo: 

R: = Bo + B1M, + BoY, + ui 
Y, = œo + &ı R; + uz 


en donde M, (oferta monetaria) es exógena, R, es la tasa de interés y Y, es el PIB. 
a) ¿Cómo se justificaría el modelo? 
b) ¿Están identificadas las ecuaciones? 


c) Con la información dada en la tabla 20.2, estime los parámetros de las ecuaciones 
identificadas. Justifique el (los) método(s) que se utiliza(n). 


20.9. 


20.10. 


20.11. 


20.12. 
20.13. 


20.14. 
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Suponga que en el ejercicio 20.8 se cambia el modelo de la siguiente manera: 


R, = Bo + B1M, + BoY, + B3Y,-1 Huir 
Y, = do +01R, + uat 


a) Averigúe si el sistema está identificado. 

b) Con la información dada en la tabla 20.2, estime los parámetros de la(s) ecuación(es) 
identificada(s). 

Considere el siguiente modelo: 


R, = Bo + B1M, + PY, + Uy, 
Y, =0% +01R, +01, + uo; 
en donde las variables están definidas como en el ejercicio 20.8. Al considerar / (inversión 


doméstica) y M exógenamente, determine la identificación del sistema. Utilizando la in- 
formación de la tabla 20.2, estime los parámetros de la(s) ecuación(es) identificada(s). 


Suponga que se cambia el modelo del ejercicio 20.10 de la siguiente manera: 


R, = Bo + BiM, + B2Y, + uir 
Y, = œo + %1 R; +091, F uz 
LER Fu 
Suponga que M está determinado exógenamente. 
a) Determine cuáles ecuaciones están identificadas. 
b) Estime los parámetros de la(s) ecuación(es) identificada(s) utilizando la información 
de la tabla 20.2. Justifique el (los) método(s). 
Verifique los errores estándar presentados en (20.5.3). 


Remítase al modelo de demanda y oferta dado en las ecuaciones (20.3.1) y (20.3.2). Su- 
ponga que la función de oferta se altera de la siguiente manera: 


O, = Bo + B1P,-1 + ua 
en donde P,_¡ es el precio predominante en el periodo anterior. 
a) Si X (gasto) y P,_ están predeterminadas, ¿existe un problema de simultaneidad? 
b) Si existe, ¿están determinadas cada una de las funciones de demanda y de oferta? Si 
lo están, obtenga las ecuaciones en forma reducida y estímelas con base en la infor- 
mación dada en la tabla 20.1. 
¿Pueden derivarse los coeficientes estructurales a partir de los coeficientes en la forma 
reducida? Muestre los cálculos necesarios. 


C 


== 


Ejercicio en clase: Considere el siguiente modelo macroeconómico simple para la econo- 
mía estadounidense durante el periodo 1960-1999.* 


Función consumo privado: 
C, = œo +01Y, +009C,_1 + Uir a > 0,0 << 1 
Función inversión privada bruta: 
Iı = Po + B1 Y, + B2R: + B3li-1 + uz B1 = 0, B> <0,0< h <1 
Función de demanda de dinero: 
R, = ào + à1 Y; + à2M—1 +43P, + à4Ri-1 + U3, 
Ai = waa = a = Ne E 


* Adaptado de H.R. Seddighi, K.A. Lawler y A.V. Katos, Econometrics: A Practical Approach, Routledge, Nueva 
York, 2000, p. 204. 
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Identidad de ingreso: 
Y, = C; =F Í, ate G; 


en donde C = consumo privado real, / = inversión privada bruta real, G = gasto guberna- 
mental real, Y = PIB real, M = oferta de dinero M2 a precios actuales, R = tasa de interés 
a largo plazo (%) y P = indice de precios al consumidor. Las variables endógenas son C, 
I, R y Y. Las variables predeterminadas son: C;,—1, l-1, M1, P,, R¿-1 y G, más el término 
del intercepto. Las u son los términos de error. 


a) Al utilizar la condición de orden para la identificación, determine cuál de las cuatro 
ecuaciones es exactamente identificada o sobreidentificada. 


b) ¿Qué método(s) se utiliza(n) para calcular las ecuaciones identificadas? 


c) Obtenga datos apropiados de fuentes gubernamentales y/o privadas, estime el modelo 
y comente los resultados. 


20.15. En este ejercicio se examinarán los datos de 534 trabajadores, obtenidos de la Current 
Population Survey (CPS) correspondiente a 1985. Los datos se presentan en la tabla 20.10 
del sitio web* del libro de texto. Las variables de esta tabla se definen como sigue: 

W = salarios $, por hora; occup = ocupación; sector = 1 para industria manufacturera, 
2 para construcción, 0 para otras; union = 1 si es trabajador sindicalizado, 0 en caso 
contrario; educ = años de escolaridad; exper = experiencia laboral en años; age = edad 
en años; sex = 1 para mujeres; marital status = 1 si es casado; race = 1 para otros, 2 para 
hispanos, 3 para blancos; region = 1 si vive en el sur de Estados Unidos. 

Considere el siguiente modelo sencillo de determinación de salarios: 


In W = pı + f,Educ + fzExper + B4Exper? + u; (1) 


a) Suponga que la escolaridad, al igual que los salarios, es endógena. ¿Cómo se puede 
averiguar si en la ecuación (1) la escolaridad es, en efecto, endógena? Use los datos 
presentados en la tabla para el análisis. 


b) ¿La prueba de Hausman sustenta el análisis realizado en (a)? Proporcione una expli- 
cación exhaustiva. 


20.16. Ejercicio en clase: Considere el siguiente modelo de demanda y oferta para préstamos de 
bancos comerciales a empresas: 


Demanda: O = 041 +R; + 2RD, + Q41PI, + 47, 
Oferta: Qi = Bi + B2R, + P3RS, + P4 TBD, + 47, 


en donde O = total de préstamos de bancos comerciales (miles de millones de dólares); 
R = tasa preferencial promedio; RS = tasa de interés de los pagarés del Tesoro a 3 meses; 
RD = calificación AAA de los bonos corporativos; IPI = índice de producción industrial; 
y TBD = total de depósitos bancarios. 


a) Recopile datos sobre estas variables para el periodo 1980-2007 de varias fuentes, 
como Www.economagic.com, el sitio Web del Banco de la Reserva Federal de San 
Luis, o cualquier otra fuente. 

b) ¿Están identificadas las funciones de demanda y oferta? Indique cuáles variables son 
endógenas y cuáles son exógenas. 

c) ¿Cómo podría estimar las funciones de demanda y oferta indicadas con anterioridad? 
Realice los cálculos necesarios. 


d) ¿Por qué se incluyen R y RS en el modelo? ¿Qué papel desempeña /PI en el mo- 
delo? 


* Los datos se encuentran publicados en la Web, en http://lib.stat.cmu.edu/datasets/cps_85_wages. 
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Apéndice 20A 


20A.1 Sesgo en los estimadores de mínimos 
cuadrados indirectos 


Para mostrar que los estimadores de MCI, aunque consistentes, están sesgados, se utiliza el modelo de 
demanda y oferta dado en las ecuaciones (20.3.1) y (20.3.2). De (20.3.10) se obtiene 


TA 
IS 
B ñ, 
Ahora 
Î; = 2 Ie de la ecuación (20.3.7) 
Di 
y 
Û = D pot de la ecuación(20.3.5) 
Dx; 
Por consiguiente, al sustituir, se obtiene 
a 33 
pi = 24 (1) 
Y PiXt 
Al utilizar (20.3.3) y (20.3.4), se obtiene 
Pi = Mix, + (w, — w) (2) 
qí = Tx, + (v, — v) (3) 
en donde w y v son los valores de las medias de w, y v,, respectivamente. 
Al sustituir (2) y (3) en (1), se obtiene 
E Ts X xe + (0: — Dos 
1= = 
Mi $x? + $w, — w)x, 
(4) 


— Js DORY) e 
e YN (w: — Ww)x:) NN 


Puesto que el operador E de valor esperado es un operador lineal, no se puede tomar la esperanza de (4), 
aunque está claro que generalmente 6, 4 (I/I). (¿Por qué?) 
Pero, a medida que el tamaño de la muestra tiende a infinito, se puede obtener 


plím M; + plim X (v: — V)xr) Y x? 
plim TI, + plim Y (w, — w)x,) Y x? 


plím (Â1) = (5) 


en donde se hace uso de las propiedades de plím, a saber: 


A lím A 
plim (A + B) = plím A + plim B y plim ( 4 \ = = 
B plím B 
Ahora bien, a medida que el tamaño de la muestra aumenta indefinidamente, el segundo término tanto en 
el denominador como en el numerador de (5) tiende a cero (¿por qué?), lo cual genera 


a II 
plim(B1) = (6) 


lo que muestra que, aunque sea sesgado, $, es un estimador consistente de £1. 
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20.A.2 Estimación de los errores estándar de los 
estimadores de MC2E 


El propósito de este apéndice es mostrar que los errores estándar de las estimaciones, obtenidos de la regre- 
sión de la segunda etapa del procedimiento de MC2E, utilizando la fórmula aplicable en la estimación por 
MCO, no son estimaciones “apropiadas” de los “verdaderos” errores estándar. Para ver esto, se utiliza el 
modelo del ingreso y oferta monetaria dado en las ecuaciones (20.4.1) y (20.4.2). Se estiman los parámetros 
de la función de oferta monetaria sobreidentificada a partir de la regresión de la segunda etapa como 


Ya = Bao + Bari + ul (20.4.6) 
en donde 
u% = un + Bars (7) 


Ahora bien, cuando se efectúa la regresión (20.4.6), el error estándar de Bar, por ejemplo, se obtiene de la 
siguiente expresión: 


ZA G 
var (2) = =$ (8) 
2 
en donde 
a XEY Ua o = han 9 
Op = = ( ) 
n—2 n—2 
Pero o; no es lo mismo que ó;,,, puesto que el último es una estimación insesgada de la verdadera va- 
rianza de u2. Esta diferencia puede verificarse fácilmente en (7). Para obtener la verdadera GA (como se 
definió anteriormente), se procede de la siguiente manera: 
By = Voy = B20 = oe 
en donde Boo y Bar son las estimaciones de la regresión de la segunda etapa. Por tanto, 
Ya: = Bao = Bar Yo)? 
02 NL, — B20 — Bar Yir) (10) 


un 2 


Observe la diferencia entre (9) y (10): en (10) se utiliza la Y, observada más que la Y, estimada de la regre- 
sión de la primera etapa. 

Después de estimar (10), la forma más fácil de corregir los errores estándar de los coeficientes estimados 
en la regresión de la segunda etapa es multiplicar cada uno de ellos por ô„, /Ô „y. Observe que si Yı; y Y. 
están muy cerca una de la otra, es decir, la R? en la regresión de la primera etapa es muy alta, el factor de 
corrección Ôu, /0 + estará cercano a 1, en cuyo caso los errores estándar estimados en la regresión de la 
segunda etapa pueden considerarse como estimaciones verdaderas. En otras situaciones deberá utilizarse el 
factor de corrección anterior. 


Capítulo e) l 


Econometría de series 
de tiempo: algunos 
conceptos básicos 


En el capítulo 1 mencionamos que uno de los dos tipos importantes de información para el aná- 
lisis empirico lo conforman las series de tiempo. En este capítulo y el siguiente estudiaremos en 
detalle tal información, pues plantea diversos desafios a econometristas y profesionales. 

En primer lugar, el trabajo empirico basado en series de tiempo supone que la serie de tiempo 
en cuestión es estacionaria. Aunque en el capítulo 1 presentamos una idea intuitiva de estaciona- 
riedad, en este capítulo analizaremos este concepto con más profundidad. Más específicamente, 
trataremos de averiguar el significado de estacionariedad y la razón por la cual se debe tener en 
cuenta. 

En segundo lugar, en el capítulo 12, sobre la autocorrelación, analizamos varias de sus causas. 
A veces la autocorrelación se origina porque las series de tiempo subyacentes no son estacio- 
narias. 

En tercer lugar, al efectuar la regresión de una variable de serie de tiempo sobre otra variable 
de serie de tiempo con frecuencia se obtiene una R? muy elevada (superior a 0.9) aunque no 
haya una relación significativa entre las dos. En ocasiones no se espera ninguna relación entre 
las dos variables; sin embargo, una regresión de una variable sobre la otra a menudo muestra una 
relación significativa. Esta situación ejemplifica el problema de la regresión espuria, o dispara- 
tada, cuya naturaleza analizaremos en breve. Por consiguiente, es muy importante averiguar si 
la relación entre las variables económicas es verdadera o espuria. En este capítulo veremos cómo 
aparece una regresión espuria cuando las series de tiempo no son estacionarias. 

En cuarto lugar, algunas series de tiempo financieras, como los precios de las acciones, mues- 
tran lo que se conoce como fenómeno de caminata aleatoria. Lo anterior significa que la mejor 
predicción para el precio de una acción, por ejemplo de IBM, es igual a su precio actual más 
un choque puramente aleatorio (o término de error). De ser así, el pronóstico del precio de las 
acciones sería un ejercicio inútil. 

En quinto lugar, los modelos de regresión que consideran series de tiempo son muy comunes 
para los pronósticos. En vista de lo expuesto, deseamos saber si tal pronóstico es válido cuando 
las series de tiempo sobre las cuales se basa no son estacionarias. 

Por último, las pruebas de causalidad de Granger y Sims, analizadas en el capítulo 17, supo- 
nen que las series de tiempo del análisis son estacionarias. Por consiguiente, deben afectuarse 
antes las pruebas para la estacionariedad que las de causalidad. 

Desde el principio, resulta necesaria una advertencia. El tema del análisis de las series de 
tiempo es muy amplio y siempre está en evolución; además, algunas matemáticas propias de las 
diversas técnicas del análisis de las series de tiempo son tan complejas que lo mejor que se puede 
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esperar de una obra introductoria como ésta es que proporcione un panorama general de algunos 
conceptos fundamentales. Para quienes deseen más información, se proporcionan referencias 
bibliográficas. ! 


21.1 Repaso rápido a una selección de series de tiempo 
económicas de Estados Unidos 


Para empezar y dar al lector una idea de algunos conceptos un tanto esotéricos del análisis de se- 
ries de tiempo de este capítulo, es útil considerar varias series de tiempo económicas de Estados 
Unidos de interés general. Estas series de tiempo son: 


IPD = ingreso personal disponible real (miles de millones de dólares) 
PIB = producto interno bruto (miles de millones de dólares) 
GCP = gasto de consumo personal real (miles de millones de dólares) 
UE = utilidades empresariales (miles de millones de dólares) 
Dividendo = dividendos (miles de millones de dólares) 


El periodo que abarcan estas cifras trimestrales es de I-1947 a IV-2007, para un total de 244 
trimestres, y todos los datos se ajustaron por estacionalidad a la tasa anual. Todos los datos se 
recopilaron de FRED, el sitio Web del Banco de la Reserva Federal de San Luis sobre economía. 
El PIB, IPD y GCP se expresan en dólares constantes, en este caso dólares de 2000. Las UE y 
los dividendos se expresan en dólares nominales. 

Para ahorrar espacio, los datos básicos se encuentran en el sitio Web del libro de texto. Sin em- 
bargo, para dar una idea de estos datos, trazamos las gráficas correspondientes en las siguientes 
dos figuras. La figura 21.1 es una gráfica de los datos de los logaritmos del PIB, IPD y GCP y 
en la figura 21.2 presentamos los logaritmos de las otras dos series de tiempo (UE y Dividendo). 
Es práctica común graficar el logaritmo de una serie de tiempo para tener una idea de la tasa de 
crecimiento de dicha serie. Una gráfica de los datos es por lo general el primer paso en el análisis 
de series de tiempo. En estas figuras, la letra L denota el logaritmo natural. 

La primera impresión de estas dos figuras es que todas estas series de tiempo parecen “tender” 
hacia arriba, aunque con algunas fluctuaciones. Suponga que deseamos especular sobre la forma 
de estas curvas más allá del periodo muestral, por ejemplo, para todos los trimestres de 2008.? 
Esto es factible si se conoce el mecanismo estadístico, o estocástico, o el proceso de generación 
de datos (PGD) que dio origen a estas curvas. Pero ¿cuál es ese mecanismo? Para responder ésta 
y otras preguntas relacionadas es necesario estudiar cierto vocabulario “nuevo” que han definido 
los analistas de series de tiempo y que explicaremos a continuación. 


1 En un nivel introductorio, estas referencias pueden ser útiles: Gary Koop, Analysis of Economic Data, John 
Wiley & Sons, Nueva York, 2000; Jeff B. Cromwell, Walter C. Labys y Michel Terraza, Univariate Test for Time 
Series Models, Sage, California, Ansbury Park, 1994; Jeff B. Cromwell, Michael H. Hannan, Walter C. Labys y 
Michel Terraza, Multivariate Tests for Time Series Models, Sage, California, Ansbury Park, 1994; H.R. Seddighi, 
K.A. Lawler y A.V. Katos, Econometrics: A Practical Approach, Routledge, Nueva York, 2000. Para un nivel 
intermedio, véase Walter Enders, Applied Econometric Time Series, John Wiley & Sons, Nueva York, 1995; 
Kerry Patterson, An Introduction to Applied Econometrics: A Time Series Approach, St. Martin's Press, Nueva 
York, 2000; T.C. Mills, The Econometric Modelling of Financial Time Series, 2a. ed., Cambridge University Press, 
Nueva York, 1999; Marno Verbeek, A Guide to Modern Econometrics, John Wiley £ Sons, Nueva York, 2000; 
Wojciech W. Charemza y Derek F. Deadman, New Directions in Econometric Practice: General to Specific Mode- 
lling and Vector Autoregression, 2a. ed., Edward Elgar Publisher, Nueva York, 1997. Para un nivel avanzado, 
consulte J.D. Hamilton, Time Series Analysis, Princeton University Press, Princeton, Nueva Jersey, 1994; así 
como G.S. Maddala e In-Moo Kim, Unit Roots, Cointegration, and Structural Change, Cambridge University 
Press, 1998. En el nivel de aplicaciones, consulte B. Bhaskara Rao (ed.), Cointegration for the Applied Econo- 
mist, St. Martin's Press, Nueva York, 1994, y Chandan Mukherjee, Howard White y Marc Wuyts, Econometrics 
and Data Analysis for Developing Countries, Routledge, Nueva York, 1998. 


? Desde luego, ya se tienen los datos reales para este periodo y se podrían comparar con los datos que se 
“predijeron” con base en el periodo anterior. 


FIGURA 21.1 
Logaritmos del PIB, IPD 
y GCP reales, Estados 
Unidos, 1947-2007 (por 
trimestre, miles de 
millones de dólares). 


Nota: En la figura, la letra L 
denota el logaritmo natural. 


FIGURA 21.2 
Logaritmos de utilidades 
empresariales (UE) y di- 
videndos, Estados Unidos, 
1947-2007 (por trimestre, 
miles de millones de dó- 
lares). 


Nota: L denota logaritmo. 
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21.2 Conceptos fundamentales? 


¿Cuál es este vocabulario? Consta de conceptos como: 


. Procesos estocásticos 

. Procesos estacionarios 

. Procesos puramente aleatorios 

. Procesos no estacionarios 

. Variables integradas 

. Modelos de caminata aleatoria 

. Cointegración 

. Tendencias deterministas y estocásticas 
. Pruebas de raíz unitaria 


VNV 0 7310 U Bu nn 


En las siguientes secciones analizaremos cada concepto. El análisis a menudo será heurístico. 
Siempre que sea posible, y útil, proporcionaremos ejemplos adecuados. 


3 El siguiente análisis se basa en Maddala et al., op. cit., Charemza et al., op. cit., y Carol Alexander, Market 
Models: A Guide to Financial Data Analysis, John Wiley & Sons, Nueva York, 2001. 
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21.3 Procesos estocásticos 


Un proceso estocástico o aleatorio es una colección de variables aleatorias ordenadas en el 
tiempo.* Si Y denota una variable aleatoria y es continua, se denota como Y(f), pero si es discreta 
se expresa como Y,. Un ejemplo del primer tipo es un electrocardiograma, y del segundo tipo, 
el PIB, IPD, etc. En vista de que la mayoría de los datos económicos se recopilan en puntos dis- 
cretos de tiempo, para los propósitos de esta sección utilizaremos la notación Y, en vez de Y(t). 
Si Y representa al PIB, para los datos anteriores se tiene Y1, Y2, Y3, . . . ,Y242, Y243, Y244, donde el 
subíndice 1 denota la primera observación (es decir, el PIB del primer trimestre de 1947) y 
el subíndice 244 señala la última observación (es decir, el PIB del cuarto trimestre de 2007). 
Tenga en cuenta que cada una de estas Y es una variable aleatoria. 

¿En qué sentido podemos considerar al PIB un proceso estocástico? Considere por ejemplo 
el PIB real de 3 759 997 millones de dólares del primer trimestre de 1970. En teoría, la cifra del 
PIB del primer trimestre de 1970 puede ser cualquier dígito, según el clima económico y político. 
La cifra 3 759 997 es una realización particular de todas esas posibilidades.’ Por tanto, podemos 
decir que el PIB es un proceso estocástico y que los valores reales observados en el periodo del 
primer trimestre de 1947 al cuarto de 2007 son realizaciones particulares de ese proceso (es 
decir, una muestra). La distinción entre el proceso estocástico y su realización es semejante a la 
diferencia entre población y muestra en datos de corte transversal. De la misma forma como ha- 
cemos inferencias sobre la población a partir de datos muestrales, efectuamos inferencias sobre 
el proceso estocástico subyacente en las series de tiempo mediante la realización. 


Procesos estocásticos estacionarios 


Un tipo de proceso estocástico que ha recibido gran atención y ha sido objeto de escrutinio por 
parte de los analistas de series de tiempo es el proceso estocástico estacionario. En términos 
generales, se dice que un proceso estocástico es estacionario si su media y su varianza son cons- 
tantes en el tiempo y si el valor de la covarianza entre dos periodos depende sólo de la distancia 
o rezago entre estos dos periodos, y no del tiempo en el cual se calculó la covarianza. En la 
bibliografía sobre series de tiempo, un proceso estocástico como éste se conoce como proceso 
estocástico débilmente estacionario, estacionario covariante, estacionario de segundo orden 
o proceso estocástico en amplio sentido. Para efectos de este capítulo, y en la mayoría de las 
situaciones prácticas, basta este tipo de estacionariedad.* 

Para explicar la estacionariedad débil, sea Y, una serie de tiempo estocástica con estas propie- 
dades: 


Media: E Y)=p (21.3.1) 
Varianza: var(Y,) = E(Y, — u}? = o? (21.3.2) 
Covarianza: ye = El(Y, — uX Y; — M)] (21.3.3) 


donde yx, la covarianza (o autocovarianza) en el rezago k, es la covarianza entre los valores de Y, 
y Y¡,1 es decir, entre dos valores Y separados k periodos. Si k = 0, obtenemos yo, que es simple- 


4 El término “estocástico” proviene de la palabra griega “stokhos”, que significa “blanco” u “objetivo”. Si 
alguna vez ha jugado a los dardos con el propósito de atinarle al blanco, ¿cuántas veces acertó? De un cen- 
tenar de tiros, quizá, si tuvo mucha suerte, le atinó al blanco unas cuantas veces; en las otras ocasiones, los 
dardos se esparcieron aleatoriamente alrededor del blanco. 


5 El valor de 3 759 997 millones de dólares se puede considerar el valor medio de todos los valores posibles 
del PIB para el primer trimestre de 1970. 

$ Una serie de tiempo es estrictamente estacionaria si todos los momentos de su distribución de probabili- 
dad, y no sólo los dos primeros (es decir, la media y la varianza), son invariantes respecto del tiempo. Sin 
embargo, si el proceso estacionario es normal, el proceso estocástico débilmente estacionario también es 
estrictamente estacionario, pues el proceso estocástico normal está del todo especificado por sus dos mo- 
mentos, la media y la varianza. 
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mente la varianza de Y( = 07); si k = 1, y, es la covarianza entre dos valores adyacentes de Y, el 
tipo de covarianza encontrada en el capítulo 12 (recuerde el esquema autorregresivo de primer 
orden de Markov). 

Suponga que el origen de Y se desplaza de Y, a Y, , (por ejemplo, del primer trimestre de 
1947 al primero de 1952 de los datos del PIB). Ahora, si esperamos que Y, sea estacionaria, la 
media, la varianza y la covarianza de Y, , ,, deben ser las mismas que las de Y,. En resumen, si 
una serie de tiempo es estacionaria, su media, su varianza y su autocovarianza (en los diferentes 
rezagos) permanecen iguales sin importar el momento en el cual se midan; es decir, son inva- 
riantes respecto del tiempo. Tal serie de tiempo tenderá a regresar a su media (llamada reversión 
media) y las fluctuaciones alrededor de esta media (medida por su varianza) tendrán una ampli- 
tud constante en términos generales.? Para decirlo de otro modo, un proceso estacionario no se 
desvía demasiado de su valor medio debido a la varianza finita. Como veremos enseguida, esto 
no ocurre con los procesos estocásticos no estacionarios. Debemos señalar que, en un proceso 
estacionario, la velocidad de la reversión media depende de las autocovarianzas: es rápida si las 
autocovarianzas son pequeñas y lenta cuando son grandes, como veremos en breve. 

Si una serie de tiempo no es estacionaria en el sentido antes definido, se denomina serie 
de tiempo no estacionaria (recuerde que hablamos sólo de estacionariedad débil). En otras 
palabras, una serie de tiempo no estacionaria tendrá una media que varía con el tiempo o una 
varianza que cambia con el tiempo, o ambas. 

¿Por qué las series de tiempo estacionarias son tan importantes? Porque si una serie de tiempo 
es no estacionaria, sólo podemos estudiar su comportamiento durante el periodo en considera- 
ción. Por tanto, cada conjunto de datos perteneciente a la serie de tiempo corresponderá a un 
episodio particular. En consecuencia, no es posible generalizar para otros periodos. Así, para 
propósitos de pronóstico, tales series de tiempo (no estacionarias) tienen poco valor práctico. 

¿Cómo sabemos que una determinada serie de tiempo es estacionaria? En particular, ¿las 
series de tiempo de las figuras 21.1 y 21.2 son estacionarias? Analizaremos este tema importante 
en las secciones 21.8 y 21.9, cuando estudiemos varias pruebas para la estacionariedad. Pero, si 
juzgamos sólo con el sentido común, parece que las series de tiempo de las figuras 21.1 y 21.2 
son no estacionarias, al menos en sus valores medios. Hablaremos de todo esto más adelante. 

Antes de continuar, debemos mencionar un tipo especial de proceso estocástico (o de series 
de tiempo): el proceso puramente aleatorio o de ruido blanco. Se dice que un proceso es pura- 
mente aleatorio si tiene una media igual a cero, una varianza constante 0? y no está serialmente 
correlacionado.* Recordará que supusimos que el término de error u, que entra en el modelo 
clásico de regresión lineal —estudiado en la parte 1 de este libro— era un proceso de ruido 
blanco denotado por u; ~ IIDN(O0, a?); es decir, u, está independiente e idénticamente distribuido 
como una distribución normal con media cero y varianza constante. Este proceso se conoce como 
proceso gaussiano de ruido blanco. 


Procesos estocásticos no estacionarios 


Aunque nuestro interés se centra en las series de tiempo estacionarias, a menudo se topa uno 
con series de tiempo no estacionarias, cuyo ejemplo clásico es el modelo de caminata aleatoria 
(MCA).? A menudo decimos que los precios de valores, como las acciones o las tasas de cambio, 
siguen una caminata aleatoria; es decir, son no estacionarios. Hay dos tipos de caminatas aleato- 
rias: 1) caminata aleatoria sin deriva o sin desvío (es decir, sin término constante o de intercepto), 
y 2) caminata aleatoria con deriva o con desvío (es decir, hay un término constante). 


7 Esta observación pertenece a Keith Cuthbertson, Stephen G. Hall y Mark P. Taylor, Applied Econometric Tech- 
niques, The University of Michigan Press, p. 130. 

8 Si también es independiente, tal proceso se conoce como estrictamente de ruido blanco. 

2 El término “caminata aleatoria” a menudo se compara con el caminar de un borracho. Al dejar la cantina, 
el borracho se mueve una distancia aleatoria u; en el tiempo t y continúa caminando de manera indefinida, 
con lo cual a la larga se aleja cada vez más de la cantina. Lo mismo se dice de los precios de las acciones. El 
precio de hoy de las acciones es igual al precio de ayer más un choque aleatorio. 
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Caminata aleatoria sin deriva 


Suponga que u; es un término de error de ruido blanco, con media 0 y varianza o?. Entonces 
decimos que la serie Y, es una caminata aleatoria si 


Y, = Yı + u (21.3.4) 


En el modelo de caminata aleatoria, como se ve en (21.3.4), el valor de Y en el tiempo + es igual 
a su valor en el tiempo (t — 1) más un choque aleatorio; por tanto, es un modelo AR(1), en el 
lenguaje de los capítulos 12 y 17. Podemos pensar que (21.3.4) es una regresión de Y en el tiempo 
t sobre su valor rezagado un periodo. Los defensores de la hipótesis del mercado de capital efi- 
ciente argumentan que los precios de las acciones son en esencia aleatorios y, por tanto, no hay 
lugar para la especulación redituable en el mercado de valores: si se pudiese predecir el precio de 
las acciones del día siguiente con base en su precio del día anterior, todos seríamos millonarios. 
Ahora bien, de (21.3.4), podemos escribir 


Yi = Yo + ui 
Y> = Yı +u = Yo + u + u2 
Y = Y + u3 = Yọ + u1 + u2 + u3 


En general, si el proceso comenzó en el tiempo 0 con un valor de Yọ, tenemos 


Y, = Y, +) u (21.3.5) 
Por tanto, 
EY) = E (% m Nu) = Yo (¿por qué?) (21.3.6) 
De igual forma se demuestra que 
var (Y,) = to? (21.3.7) 


Como revelan las expresiones anteriores, la media de Y es igual a su valor inicial (constante), pero 
conforme se incrementa f, su varianza aumenta de manera indefinida, lo que viola una condición 
de la estacionariedad. En resumen, el MCA sin deriva es un proceso estocástico no estacionario. 
En la práctica, Yọ a menudo se iguala a cero, en cuyo caso £(Y,) = 0. 

Una característica importante del MCA es la persistencia de los choques aleatorios (es decir, 
los errores aleatorios), lo cual resulta evidente de (21.3.5): Y, es la suma de Yọ inicial más la suma 
de los choques aleatorios. Como resultado, no se desvanece el impacto de un choque particular. 
Por ejemplo, si u2 = 2, en vez de uz = 0, todas las Y, de Y, en adelante serán 2 unidades mayores, 
por lo que nunca cesa el efecto de este choque. Por esta razón decimos que la caminata aleato- 
ria tiene memoria infinita. Como observa Kerry Patterson, la caminata aleatoria recuerda los 
choques por siempre;!% es decir, tiene memoria infinita. La suma Yu, se conoce también como 
tendencia estocástica, sobre la cual hablaremos en detalle más adelante. 

Resulta interesante que si expresamos (21.3.4) como 


(Y, — Y,1) = AY, = u (21.3.8) 


donde A es el operador de primeras diferencias, mismo que analizamos en el capítulo 12, resulta 
fácil probar que mientras que Y, es no estacionaria, sí lo es la serie de sus primeras diferencias. 
En otras palabras, las primeras diferencias de series de tiempo de caminata aleatoria son estacio- 
narias. No obstante, hay más que decir al respecto. 


10 Kerry Patterson, op. cit., capítulo 6. 


FIGURA 21.3 
Caminata aleatoria sin 
deriva. 
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Caminata aleatoria con deriva 
Modifiquemos (21.3.4) de la siguiente forma: 


Y, = ô + Y, +u (21.3.9) 


donde ô se conoce como el parámetro de deriva. El término deriva proviene del hecho de que, 
si escribimos la ecuación anterior como 


Y, - Y, = AY% =6+u, (21.3.10) 


se demuestra que Y, se deriva o desvía hacia arriba o hacia abajo, según ô sea positiva o negativa. 
Observe que el modelo (21.3.9) también es un modelo AR(1). 

Según el procedimiento analizado en la caminata aleatoria sin deriva, podemos demostrar que, 
para el modelo de caminata aleatoria con deriva (21.3.9), 


EY)=h+t-8 (21.3.11) 
var (Y,) = to? 


Como puede observar, para el MCA con deriva, la media, al igual que la varianza, se incre- 
menta con el tiempo, lo que viola de nuevo las condiciones de la estacionariedad (débil). En 
resumen, el MCA, con o sin deriva, es un proceso estocástico no estacionario. 

A fin de dar una ligera idea de la caminata aleatoria con y sin deriva, llevaremos a cabo dos 
simulaciones a continuación: 


Y, = Y + u; (21.3.13) 


donde u, son términos de error de ruido blanco de forma que cada u, ~ N(0, 1); es decir, cada u, 
sigue la distribución normal estándar. Mediante un generador de números aleatorios se obtuvie- 
ron 500 valores de u y se generó Y, como se muestra en (21.3.13). Supusimos que Yọ = 0. Por 
tanto, (21.3.13) es un MCA sin deriva. 

Ahora considere 


Y, =5+Y+u; (21.3.14) 


que es un MCA sin deriva. Supusimos que los valores u; y Yọ son como en (21.3.13) y que 
$=2. 

Las gráficas de los modelos (21.3.13) y (21.3.14) aparecen en las figuras 21.3 y 21.4, res- 
pectivamente. El lector puede comparar tales diagramas a la luz del análisis del MCA con y sin 
deriva. 
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FIGURA 21.4 
Caminata aleatoria con 
deriva. 
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Y, =2+Y, +u, [Y, =0] 


El modelo de caminata aleatoria es un ejemplo de lo que se conoce en la bibliografía como 
proceso de raíz unitaria. Como este término es ya muy común en las referencias de series de 
tiempo, a continuación explicaremos lo que es un proceso de raíz unitaria. 


21.4 Proceso estocástico de raíz unitaria 


Escribimos el MCA (21.3.4) como: 
Y, = pY,- + u; -1<p<1 (21.4.1) 


Este modelo se parece al modelo autorregresivo de primer orden de Markov que analizamos en 
el capítulo de autocorrelación. Si p = 1, (21.4.1) se convierte en un MCA (sin deriva). Si p es en 
efecto 1, tenemos lo que se conoce como problema de raíz unitaria; es decir, enfrentamos una 
situación de no estacionariedad. Ya sabemos que en este caso la varianza de Y, es no estacionaria. 
El nombre de raíz unitaria se debe a que p = 1.!! Por tanto, los términos no estacionariedad, ca- 
minata aleatoria, raíz unitaria y tendencia estocástica se consideran sinónimos. 

Sin embargo, si |o] < 1, es decir, si el valor absoluto de p es menor que 1, podemos demostrar 
que la serie de tiempo Y, es estacionaria de acuerdo con la definición dada.!? 

Así, en la práctica, es importante averiguar si una serie de tiempo tiene una raíz unitaria.! 
En la sección 21.9 analizaremos varias pruebas de raíz unitaria, es decir, diversas pruebas para 
la estacionariedad. En dicha sección también determinaremos si las series de tiempo graficadas 
en las figuras 21.1 y 21.2 son estacionarias. Quizás el lector sospeche que no lo son. A su debido 
tiempo veremos esto. 


3 


11 Una observación técnica: si p = 1, (21.4.1) se expresa como Y; — Y;_1 = Ut. Ahora, con el operador de 
rezago L, de modo que LY; = Y;_1, LY, = Yiz, etc., (21.4.1) se escribe como (1 — L)Y,= ur. El término 
“raíz unitaria” se refiere a la raíz del polinomio en el operador de rezago. Si se tiene (1 — L) = 0, L = 1, de 
ahí el nombre de raíz unitaria. 

12 Si en (21.4.1) se supone que el valor inicial de Y(= Yo) es cero, |p| < 1 y ur es de ruido blanco, y tiene una 
distribución normal con una media cero y una varianza unitaria, por tanto se deduce que E(Y¿) = 0 y (Y) = 
1/(1 — p?). Como ambas son constantes, por definición de estacionariedad débil, Y, es estacionaria. Por otra 
parte, como ya vimos, si o = 1, Y, es una caminata aleatoria o no estacionaria. 

13 Una serie de tiempo puede contener más de una raíz unitaria. Estudiaremos tal situación más adelante en 
este capítulo. 
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21.5 Procesos estocásticos estacionarios en tendencia (ET) 
y estacionarios en diferencias (ED) 


La distinción entre procesos estocásticos (o series de tiempo) estacionarios y no estacionarios 
tiene una importancia fundamental para saber si la tendencia (la lenta evolución de largo plazo de 
la serie de tiempo en consideración) observada en las series de tiempo presentadas en las figuras 
21.3 y 21.4 o en las series de tiempo económicas reales de las figuras 21.1 y 21.2 es determinista 
oestocástica. En términos generales, si la tendencia de una serie de tiempo es del todo predecible 
y no variable, se le llama tendencia determinista; si no es predecible, se le llama tendencia es- 
tocástica. Para formalizar la definición, considere el siguiente modelo de la serie de tiempo Y;: 


Y, = Pi + Bat + B3Y,-1 + u (21.5.1) 
donde u, es un término de error de ruido blanco y donde tes el tiempo medido cronológicamente. 


Ahora tenemos las siguientes probabilidades: 


Caminata aleatoria pura: Si en (21.5.1) 6; = 0, 62 = 0, B3 = 1, obtenemos 
Y, = Y, + u: (21.5.2) 


que no es otra cosa sino el MCA sin deriva y por tanto es no estacionario. Pero observe que si 
expresamos (21.5.2) como 


AY, = (Y, — Yı) = u; (21.3.8) 


se convierte en estacionaria, como ya mencionamos. Por tanto, un MCA sin deriva es un pro- 
ceso estacionario en diferencias (PED). 
Caminata aleatoria con deriva: Si en (21.5.1) 6, 4 0, 62 = 0, 63 = 1, obtenemos 


Y, = bi + Yi +u: (21.5.3) 


que es una caminata aleatoria con deriva y en consecuencia es no estacionaria. Si la expresa- 
mos como 


(Y, = F) = AY, = Pitu (21.5.3a) 


esto significa que Y, mostrará una tendencia positiva ($, > 0) o negativa (8, < 0) (figura 21.4). 

Tal tendencia se llama tendencia estocástica. La ecuación (21.5.3a) es un PED porque la no 

estacionariedad en Y, se elimina al tomar las primeras diferencias de las series de tiempo. 
Tendencia determinista: Si en (21.5.1), 61 4 0, 62 Æ 0, B3 = 0, obtenemos 


Y, = Pı + Bot + u: (21.5.4) 


lo cual se llama proceso estacionario en tendencia (PET). Aunque la media de Y, es 61 + 
Bot —no constante—, su varianza (= 0?) sí lo es. Una vez que conocemos los valores de $; 
y b2, podemos pronosticar la media sin ningún problema. Por tanto, si restamos la media de 
Y, de Y, la serie resultante será estacionaria; de ahí el nombre de estacionario en tendencia. 
Este procedimiento de eliminar la tendencia (determinista) se llama supresión de tendencia. 

Caminata aleatoria con deriva y tendencia determinista: Si en (21.5.1) 61 4 0, 62% 0, 
B3 = 1, obtenemos 


Y, = Bi + bat + Y-i + ur (21.5.5) 
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FIGURA 21.5 
Tendencia determinista 
frente a tendencia 
estocástica. 


Fuente: Charemza et al., op. cit., 
p.9l. 


20} 
15 f Estocástica 
10- 
5 Determinista 


Tiempo 


en cuyo caso tenemos una caminata aleatoria con deriva y tendencia determinista, lo cual se 
aprecia si expresamos esta ecuación como 


AY, = Bi + Bot + i (21 .5.5a) 


que significa que Y, es no estacionaria. 
Tendencia determinista con componente estacionario AR(1): Si en (21.5.1) 6, Æ 0, 
B2 Æ 0, 3 < 1, tenemos 


Y, = Pi + Pat + B3Y,-1 + u (21.5.6) 
que es estacionaria alrededor de la tendencia determinista. 


Para apreciar la diferencia entre una tendencia determinista y una estocástica, considere la 
figura 21.5.!4 La serie llamada estocástica en esta figura está generada por el MCA con deriva: 
Y, = 0.5 + Y, - ¡ + us donde se generaron 500 valores de u, a partir de la distribución estándar 
y donde el valor inicial de Y se estableció como 1. La serie llamada determinista se genera de la 
siguiente forma: Y, = 0.5t + un donde u, se generó como antes y t es el tiempo medido cronoló- 
gicamente. 

Como se ve a partir de la figura 21.5, en el caso de la tendencia determinista, las desviaciones 
de la línea de tendencia (que representa la media no estacionaria) son puramente aleatorias y se 
eliminan rápido; no contribuyen al desarrollo de largo plazo de las series de tiempo, el cual está 
determinado por el componente de la tendencia 0.5f. En el caso de la tendencia estocástica, por 
otra parte, el componente aleatorio u; afecta el curso de largo plazo de la serie Y. 


21.6 Procesos estocásticos integrados 


El modelo de caminata aleatoria no es más que un caso específico de una clase más general de 
procesos estocásticos conocidos como procesos integrados. Recuerde que el MCA sin deriva es 
no estacionario, pero su serie de primeras diferencias, como se muestra en (21.3.8), es estaciona- 
ria. Por tanto, el MCA sin deriva se llama proceso integrado de orden 1 y se denota como /(1). 
De manera similar, si una serie de tiempo tiene que diferenciarse dos veces (es decir, se toman 
primeras diferencias de la serie de primeras diferencias) para hacerla estacionaria, esa serie de 
tiempo se denomina integrada de orden 2.'* En general, si una serie de tiempo (no estacionaria) 


14 El siguiente análisis se basa en Wojciech W. Charemza et al., op. cit., pp. 89-91. 
15 Por ejemplo, si Y, es (2), entonces AAY¿= A(Yt — Y1) = AY, — AYi1 = Ye — 2Y11 + Yez se convertirá 
en estacionaria. Pero observe que AA Y; = ALA Ye— Yez- 
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debe diferenciarse d veces para hacerla estacionaria, decimos que la serie es integrada de orden 
d. Una serie de tiempo Y, integrada de orden d se denota como Y, ~ /(d). Si una serie de tiempo 
es estacionaria desde el principio (es decir, si no requiere ninguna diferenciación), decimos que es 
integrada de orden cero y se denota mediante Y, ~ /(0). Por tanto, con los términos “serie de 
tiempo estacionaria” y “serie de tiempo integrada de orden cero” daremos a entender la misma 
cosa. 

La mayoría de las series de tiempo económicas son /(1); es decir, por lo general se convierten 
en estacionarias sólo después de tomar sus primeras diferencias. ¿Las series de tiempo mostra- 
das en las figuras 21.1 y 21.2 son /(1) o de orden mayor? Las examinaremos en las secciones 
21.8 y 21.9. 


Propiedades de las series integradas 


Podemos observar las siguientes propiedades de las series de tiempo integradas: sea X, Y, y Z; 
tres series de tiempo. 


1. SiX, 1(0) y Y, 100), Z= (X:+ Y,) = 101); es decir, una combinación lineal o suma de series 
de tiempo estacionaria y no estacionaria es no estacionaria. 

2. Si X, ~ Kd), Z, = (a + bX,) = I(d), donde a y b son constantes. Es decir, una combinación 
lineal de una serie /(d) es también 1(d). Por tanto, si X, ~ 1(0), Z, = (a + bX,) ~ 1(0). 

3. Si X; ~ Kdi) y Y, ~ d2), Z, = (aX, + bY,) ~ Kdz), donde dı < dh. 

4. SiX, ~ Id) y Y, ~ (d), Z= (aX, + bY,) ~ I(d*); d* es por lo general igual a d, pero en algu- 
nos casos d* < d (véase el tema de cointegración en la sección 21.11). 


Como se ve por los enunciados anteriores, debemos poner especial atención al combinar dos 
o más series de tiempo que tengan diferente orden de integración. 

Para ver la importancia de esto, considere el modelo de regresión de dos variables analizado 
en el capítulo 3, a saber, Y, = 1 + BA, + u,. Según los supuestos clásicos de MCO, sabemos 
que 


Ê = Lay (21.6.1) 
2x 
donde las letras minúsculas, como siempre, indican la desviación de los valores medios. Suponga 
que Y, es /(0) pero que X; es 1(1); es decir, la primera es estacionaria y la segunda no. Como X, 
es no estacionaria, su varianza se incrementará indefinidamente por tanto, domina el término 
del numerador en (21.6.1), con el resultado de que Ba convergirá a cero de manera asintótica (es 
decir, en muestras grandes) y no tendrá siquiera una distribución asintótica.!% 


21.7 El fenómeno de regresión espuria 


Para ver por qué las series de tiempo estacionarias son tan importantes, considere los dos mode- 
los de caminata aleatoria siguientes: 


Y, = Y, Hur (21.7.1) 
X; =X + 1 (21.7.2) 


donde se generaron 500 observaciones de u, a partir de u, ~ N(0, 1) y 500 observaciones de v, 
a partir de v, ~ N(0, 1), además de que se supuso que los valores iniciales de Y y X eran cero. 
También se supuso que u; y v; no están serial ni mutuamente correlacionadas. Como ya sabemos, 
ambas series de tiempo son no estacionarias; es decir, son /(1) o exhiben tendencias estocás- 
ticas. 


16 Esta observación se debe a Maddala et al., op. cit., p. 26. 
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Suponga que hacemos la regresión de Y, sobre X,. Como Y, y X, son procesos no correlacio- 
nados 1(1), R? de la regresión de Y sobre X debe tender a cero; es decir, no debe haber ninguna 
relación entre las dos variables. Pero vea los resultados de la regresión: 


Variable Coeficiente Error estándar Estadístico t 
E -13.2556 0.6203 -21.36856 
X 0.3376 0.0443 7.61223 


R? = 0.1044 d = 0.0121 


Como puede observar, el coeficiente de X es muy significativo estadísticamente, y aunque el 
valor de R? es bajo, es estadísticamente distinto de cero. A partir de estos resultados, uno estaría 
tentado a concluir que existe una relación estadística significativa entre Y y X, aunque a priori se 
pensara que no habría ninguna. Lo anterior resume el fenómeno de regresión espuria o regre- 
sión sin sentido descubierto por Yule,!” quien mostró además que la correlación (espuria) puede 
persistir en las series de tiempo no estacionarias aunque la muestra sea muy grande. Que hay algo 
malo en la regresión anterior lo indica el valor extremadamente bajo de la d de Durbin-Watson, el 
cual indica una autocorrelación muy fuerte de primer orden. De acuerdo con Granger y Newbold, 
R? > d es una buena regla práctica para sospechar que la regresión estimada es espuria, como 
en el ejemplo anterior. Podemos añadir que la R? y el estadístico £ de dicha regresión espuria son 
engañosos y que los estadísticos f no están distribuidos como la distribución ź (de Student) y, por 
tanto, no se pueden probar con ellos hipótesis sobre los parámetros. 

Que los resultados de la regresión presentados antes carezcan de sentido se advierte con faci- 
lidad al hacer la regresión de las primeras diferencias de Y, (= AY) sobre las primeras diferen- 
cias de X, (= AX); recuerde que aunque Y, y X, son no estacionarias, sus primeras diferencias 
sí lo son. En esta regresión veremos que R? es prácticamente cero, como debe ser, y que la d de 
Durbin-Watson es de casi 2. En el ejercicio 21.24 se le pedirá realizar esta regresión y verificar 
el enunciado anterior. 

Aunque resulta drástico, este ejemplo es un recordatorio de que debemos tener mucho cui- 
dado al llevar a cabo un análisis de regresión basado en series de tiempo que exhiban tendencias 
estocásticas. Así, hay que tomar muchas precauciones al interpretar de más los resultados de la 
regresión basados en variables /(1). Por ejemplo, vea el ejercicio 21.26. En alguna medida, lo 
anterior resulta verdadero para las series de tiempo sujetas a tendencias deterministas, de lo cual 
se da un ejemplo en el ejercicio 21.25. 


21.8 Pruebas de estacionariedad 


A estas alturas es probable que el lector tenga una buena idea sobre la naturaleza de los procesos 
estocásticos estacionarios y su importancia. En la práctica se enfrentan dos preguntas importan- 
tes: 1) ¿Cómo sabemos si una serie de tiempo determinada es estacionaria? 2) Si tenemos que una 
serie de tiempo determinada es no estacionaria, ¿hay alguna forma de que se convierta en estacio- 
naria? Abordaremos la primera pregunta en este apartado y la segunda en la sección 21.10. 

Antes de proceder, tenga en cuenta que sobre todo nos interesa la estacionariedad débil o 
covarlanza. 

Aunque hay varias pruebas para la estacionariedad, sólo analizamos las que se estudian de 
manera prominente en la bibliografía. En esta sección examinaremos dos pruebas: 1) el análisis 


17 G.U. Yule, “Why Do We Sometimes Get Nonsense Correlations Between Time Series? A Study in Sampling 
and the Nature of Time Series”, en Journal of the Royal Statistical Society, vol. 89, 1926, pp. 1-64. Para am- 
plias simulaciones Monte Carlo sobre regresiones espurias, véase C.W.J. Granger y P. Newbold, “Spurious 
Regressions in Econometrics”, en Journal of Econometrics, vol. 2, 1974, pp. 111-120. 
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gráfico y 2) la prueba del correlograma. Debido a la importancia que le otorgamos en el pasado 
reciente, en el siguiente apartado estudiaremos la prueba de raíz unitaria. Ilustramos las pruebas 
mencionadas con ejemplos adecuados. 


1. Análisis gráfico 

Como ya mencionamos, antes de efectuar una prueba formal, siempre es aconsejable graficar 
la serie de tiempo en estudio, como se hizo en las figuras 21.1 y 21.2 con los datos de series de 
tiempo sobre indicadores económicos de Estados Unidos que se presentan en el sitio Web del 
libro de texto. Estas gráficas proporcionan una pista inicial respecto de la posible naturaleza de 
las series de tiempo. Por ejemplo, considere la serie de tiempo PIB de la figura 21.1. Observará 
que, a lo largo del periodo de estudio, el logaritmo del PIB se incrementó; es decir, muestra una 
tendencia ascendente, lo cual deja entrever que quizá esté variando la media del logaritmo del 
PIB. Esto tal vez indique que la serie logarítmica del PIB es no estacionaria, lo cual es más o 
menos verdadero para las otras series de tiempo económicas de Estados Unidos de la figura 21.2. 
Esa intuición es el comienzo de una prueba más formal de estacionariedad. 


2. Función de autocorrelación (FAC) y correlograma 


Una prueba sencilla de estacionariedad se basa en la denominada función de autocorrelación 
(FAC). La FAC en el rezago k, denotada por pz, se define como 


_Yk 
Yo 
covarianza en el rezago k 


Pk 
(21.8.1) 


varianza 


donde la covarianza en el rezago k y la varianza son como se definieron anteriormente. Observe 
que si k = 0, po = 1 (¿por qué?). 

Como la covarianza y la varianza se miden en las mismas unidades, pes un número sin unidad 
de medida, o puro. Se encuentra entre —1 y +1, igual que cualquier coeficiente de correlación. Si 
graficamos p+ respecto de k, la gráfica obtenida se conoce como correlograma poblacional. 

Como, en la práctica, sólo tenemos una realización de un proceso estocástico (es decir, la 
muestra), sólo podemos calcular la función de autocorrelación muestral, /,. Para tal efecto, 
debemos calcular primero la covarianza muestral en el rezago k, p, y la varianza muestral, 
Po definidas como!* 


~ E- Ya- Y) 
Yk = 


(21.8.2) 

n 

Y, - YY 

pa LES E (21.8.3) 

n 

donde n es el tamaño de la muestra y Y es la media muestral. 
Por consiguiente, la función de autocorrelación muestral en el rezago k es 

di E (21.8.4) 


Yo 


que es simplemente la razón entre la covarianza muestral (en el rezago k) y la varianza muestral. 
La gráfica de + frente a k se conoce como correlograma muestral. 

¿Cómo saber con un correlograma si una serie de tiempo particular es estacionaria? Para este 
propósito, primero presentaremos correlogramas muestrales de un proceso puramente aleatorio 


18 En sentido estricto, debemos dividir la covarianza muestral en el rezago k por (n — k) y la varianza mues- 
tral entre (n — 1) en vez de hacerlo entre n (¿por qué?), en donde n es el tamaño de la muestra. 
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FIGURA 21.6 
Correlograma del término 
de error de ruido blanco 
u. AC = autocorrelación, 
ACP = autocorrelación 
parcial (capítulo 22), 

Est. Q = estadístico O, 
Prob = Probabilidad. 


Muestra: 2 500 
Observaciones incluidas: 499 


Autocorrelación Correlación parcial AC ACP Est. Q Prob 
j 1 =0.022  =0:022 0.2335 0.629 

| Į 2 —0.019 -—0.020 0.4247 0.809 
l 3 -—0.009 -0.010 0.4640 0.927 

| ĮI 4 —0.031 -0.031 0.9372 0.919 
E E 5 —0.070 —0.072 3.4186 0.636 
l 6 -—0.008 -0.013 3.4493 0.751 

J | 7 0.048 0.045 4.6411 0.704 
L E 8 -—0.069 -0.070 7.0385 0.532 
| 9 0.022 0.017 7.2956 0.606 
l 10 -0.004 -—0.011 7.3059 0.696 

| l 11 0.024 0.025 7.6102 0.748 
| | 12 0.024 0.027 7.8993 0.793 
|] 13 0.026 0.021 8.2502 0.827 
| L 14 -0.047 —0.046 9.3726 0.806 
l L 15 -0.037 -—0.030 10.074 0.815 
ll [l 16 -0.026  -—0.031 10.429 0.843 
| L| 17 -0.029 -—0.024 10.865 0.863 
| L 18 -0.043 —0.050 11.807 0.857 
I | 19 0.038 0.028 12.575 0.860 
A A 20 0.099 0.093 17.739 0.605 
21 0.001 0.007 17.739 0.665 

22 0.065 0.060 19.923 0.588 
i | 23 0.053 0.055 21.404 0.556 
ll 24 -0.017 —0.004 21.553 0.606 
25 -0.024 -0.005 21.850 0.644 

26 -—0.008 -0.008 21.885 0.695 

ll [l 27 -0.036 -0.027 22.587 0.707 
i D 28 0.053 0.072 24.068 0.678 
29 —0.004 -—0.011 24.077 0.725 

l 30 -0.026 -0.025 24.445 0.752 


de ruido blanco y un proceso de caminata aleatoria. Regresemos al MCA sin deriva (21.3.13). 
Ahí generamos una muestra de 500 términos de error, las u, a partir de la distribución normal 
estandarizada. El correlograma para estos 500 términos de error puramente aleatorios es como se 
muestra en la figura 21.6; se muestran en este correlograma hasta 30 rezagos. En breve comenta- 
remos cómo elegir la longitud del rezago. 

Por el momento, sólo observe la columna AC, que es la función de autocorrelación muestral, 
y el primer diagrama de la izquierda, llamado autocorrelación. La línea vertical continua de este 
diagrama representa el eje cero; las observaciones por arriba de esta línea son valores positivos, y 
los que están por debajo, negativos. Como resulta evidente a partir de este diagrama, para un pro- 
ceso puramente de ruido blanco, las autocorrelaciones en distintos rezagos se ubican alrededor 
del cero. Ésta es una imagen de un correlograma de una serie de tiempo estacionaria. Por tanto, 
si el correlograma de una serie de tiempo real (económica) se parece al correlograma de una serie 
de tiempo de ruido blanco, podemos decir que dicha serie de tiempo es quizá estacionaria. 


FIGURA 21.7 
Correlograma de una serie 
de tiempo de caminata 
aleatoria. Véanse las defi- 
niciones en la figura 21.6. 
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Muestra: 2 500 
Observaciones incluidas: 499 


Autocorrelación Correlación parcial AC ACP Est. Q Prob 
[a Ia | 1 0.992 0.992 493.86 0.000 
¡E 2 0.984 0.000 980.68 0.000 
| l 3 0.976 0.030 1461.1 0.000 
E 4 0.969 0.005 1935.1 0.000 
E E 5 0.961 -—0.059 2402.0 0.000 
2 | 6 0.953 0.050 2 862.7 0.000 
A 7 0.946 0.004 3317.3 0.000 
E) |] 8 0.939 0.040 3766.4 0.000 
E 9 0.932 -0.009 4210.1 0.000 
= I 10 0.927 0.055 4649.1 0.000 
¡A l 11 0.921 0.018 5083.9 0.000 
E I 12 0.916 0.039 5514.9 0.000 
E 13 0.912 0.002 5942.4 0.000 
[| I 14 0.908 0.056 6367.0 0.000 
E [i 15 0.905 0.061 6 789.8 0.000 
m 16 0.902 0.000 7210.6 0.000 
l) 17 0.899 0.006 7 629.4 0.000 
E l 18 0.896 0.030 8046.7 0.000 
E I 19 0.894 0.053 8463.1 0.000 
EE 20 0.892 0.013 8878.7 0.000 
E] [l 21 0.890 -0.041 9 292.6 0.000 
¡E 22 0.886 -0.040 9704.1 0.000 
=] I 23 0.882 -0.044 10113. 0.000 
¡E 24 0.878 -0.012 10518. 0.000 
[===] ll 25 0.873 -0.023 10920. 0.000 
E ĮI 26 0.867 -0.041 11317 0.000 
¡A L 27 0.860 -0.055 11709. 0.000 
E | 28 0.853 -—0.045 12095. 0.000 
| 29 0.846 -0.010 12476. 0.000 
[A 30 0.839 0.008 12851. 0.000 
¡A 31 0.832 -0.006 13221. 0.000 
E 32 0.825 0.003 13 586. 0.000 
[=== 33 0.819 -0.006 13946. 0.000 


Ahora observe el correlograma de una serie de caminata aleatoria como se genera por (21.3.13). 
La gráfica se muestra en la figura 21.7. La característica más sobresaliente de este correlograma 
es que los coeficientes de autocorrelación, para diversos rezagos, son muy altos, incluso hasta 
para un rezago de 33 trimestres. De hecho, si consideramos rezagos de hasta 60 trimestres, los 
coeficientes de autocorrelación son muy altos; en el rezago 60, el coeficiente es de casi 0.7. La 
figura 21.7 es un correlograma habitual de una serie de tiempo no estacionaria. El coeficiente 
de autocorrelación comienza en un nivel muy alto y disminuye de modo muy lento hacia cero, 
conforme se prolonga el rezago. 

Consideremos un ejemplo concreto. Examinemos el correlograma de la serie de tiempo LPIB 
graficada con base en los datos de series de tiempo económicas de Estados Unidos del sitio Web 
del libro (sección 21.1). En la figura 21.8 se muestra el correlograma de hasta 36 rezagos. El 
correlograma de hasta 36 rezagos del LPIB también muestra un patrón semejante al del corre- 
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FIGURA 21.8 
Correlograma del LPIB de 
Estados Unidos, 1-1947 a 
IV-2007. Véanse las defi- 
niciones en la figura 21.6. 


Muestra: l-1947 IV-2007 
Observaciones incluidas: 244 


Autocorrelación Correlación parcial AC ACP Est. Q Prob 


[car | 


0.977 0.977 235.73 0.000 
0.954  —0.009 461.43 0.000 
0.931 0.010 677.31 0.000 
0.908  —0.006 883.67 0.000 
0.886 -0.003 1080.9 0.000 
0.864 -—0.001 1269.3 0.000 
0.843 -—0.006 1449.3 0.000 
0.822 -—0.006 1621.0 0.000 
0.801 -—0.010 1784.6 0.000 
0.780 -—0.004 1940.6 0.000 
0.759 —0.007 2089.0 0.000 
0.738 0.013 2230.0 0.000 
0.718 0.003 2364.1 0.000 
0.699 -0.005 2491.5 0.000 
0.679 -0.001 26124 0.000 
0.660 -—0.004 2727.2 0.000 
0.642 -—0.002 2836.2 0.000 
0.624 0.002 2939.6 0.000 
0.607 0.003 3037.8 0.000 


mi mk ado e rr A omk a ak 
O0O0YJ]Odo*2 ON -=000JOgn_a=-QpNn = 


Ea 


20 0.590 -0.003 3130.9 0.000 
21 0.573 -—0.003 32193 0.000 
22 0.557 —0.003 3303.1 0.000 
23 0.541 -0.001 3382.5 0.000 
24 0.526 0.007 3457.9 0.000 
25 0.511 0.002 3529.4 0.000 
26 0.496 -0.005 3597.2 0.000 
27 0.482 -0.011 3661.4 0.000 
28 0.467 -—0.009 3722.0 0.000 
29 0.453 -0.005 3779.2 0.000 
30 0.438 -0.006 3833.1 0.000 
31 0.424 -0.005 3883.9 0.000 
32 0.411 0.004 3931.6 0.000 
33 0.398 0.004 3976.7 0.000 
34 0.385 -0.001 4019.1 0.000 
35 0.373 -—0.009 4058.9 0.000 
36 0.360 -—0.010 4096.3 0.000 


lograma del modelo de caminata aleatoria de la figura 21.7. El coeficiente de autocorrelación 
comienza con un valor muy alto en el rezago 1 (0.977) y disminuye muy lentamente. Por tanto, 
parece que la serie de tiempo PIB es no estacionaria. Si graficamos los correlogramas de otras 
series de tiempo económicas de Estados Unidos de la figura 21.1 y 21.2 observaremos patrones 
similares, lo cual lleva a la conclusión de que todas estas series de tiempo son no estacionarias; 
tal vez sean no estacionarias respecto de la media o la varianza, o ambas. 

Aquí podemos abordar dos cuestiones prácticas. En primer lugar, ¿cómo elegir la longitud del 
rezago para calcular la FAC?, y en segundo, ¿cómo determinar si un coeficiente de autocorrela- 
ción es estadísticamente significativo en un cierto rezago? A continuación damos las respuestas. 
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Elección de la longitud del rezago 


Se trata básicamente de un asunto empírico. Una regla práctica es calcular la FAC hasta un tercio 
o una cuarta parte de la longitud de la serie de tiempo. En vista de que para los datos económicos 
de este ejemplo tenemos 244 observaciones trimestrales, según esta regla, los rezagos de 61 a 81 
trimestres servirán. Para ahorrar espacio, sólo mostramos 36 rezagos en la gráfica de la FAC en 
la figura 21.8. El mejor consejo práctico es comenzar con rezagos lo bastante grandes y luego 
reducirlos mediante un criterio estadístico, como el criterio de información Akaike o de Schwarz, 
que analizamos en el capítulo 13. Por otra parte, también podemos utilizar cualquiera de las 
siguientes pruebas. 


Significancia estadística de los coeficientes de autocorrelación 


Considere, por ejemplo, el correlograma de la serie de tiempo LPIB de la figura 21.8. ¿Cómo de- 
cidir si el coeficiente de correlación, 0.780, en el rezago 10 (trimestres) es estadísticamente signi- 
ficativo? La significancia estadística de cualquier z se juzga mediante su error estándar. Bartlett 
demostró que si una serie de tiempo es puramente aleatoria, es decir, si es una muestra de ruido 
blanco (figura 21.6), los coeficientes de autocorrelación muestrales p” son aproximadamente!” 


ôr ~ N(0, 1/n) (21.8.5) 


es decir, en muestras grandes, los coeficientes de autocorrelación muestrales están normalmente 
distribuidos y tienen media cero y varianza igual a 1 sobre el tamaño de la muestra. Como hay 
244 observaciones, la varianza es 1/244 ~ 0.0041, y el error estándar, v 0.0041 = 0.0640. Por 
tanto, según las propiedades de la distribución normal estándar, el intervalo de confianza de 95% 
para cualquier (población) p% es: 


Pr + 1.96(0.0640) = ôr + 0.1254 (21.8.6) 


En otras palabras, 
Prob (0; — 0.1254 < pp < fx + 0.1254) = 0.95 (21.8.7) 


Si el intervalo anterior incluye el valor cero, no rechazamos la hipótesis de que la verdadera pz 
es cero, pero si este intervalo no incluye 0, rechazamos la hipótesis de que la verdadera p% es 
cero. Al aplicar esto al valor estimado de $10 = 0.780, el lector puede verificar que el intervalo 
de confianza de 95% para la verdadera p10 es (0.780 + 0.1254) o (0.6546, 0.9054).2 Es obvio 
que este intervalo no incluye el valor cero, lo cual indica que hay 95% de confianza de que la 
verdadera p¡o sea significativamente diferente de cero.?! Como se ve, incluso en el rezago 20 
la p29 es estadísticamente significativa en un nivel de 5%. 

En lugar de probar la significancia estadística de cualquier coeficiente de autocorrelación 
individual, para probar la hipótesis conjunta de que todos los p% hasta ciertos rezagos son simul- 
táneamente iguales a cero, podemos utilizar el estadístico Q desarrollado por Box y Pierce, que 


se define como”? 
m 


O=n 5 ô? (21.8.8) 
k=1 


19 M.S. Bartlett, “On the Theoretical Specification of Sampling Properties of Autocorrelated Time Series”, en 
Journal of the Royal Statistical Society, serie B, vol. 27, 1946, pp. 27-41. 

20 El tamaño de la muestra de 244 observaciones es razonablemente grande para usar la aproximación nor- 
mal. 


21 Por otra parte, si divide el valor estimado de cualquier px entre el error estándar (/1/n) para una n lo 
bastante grande, obtendrá el valor estándar Z, cuya probabilidad se obtiene fácilmente a partir de la tabla 
normal estándar. Por tanto, para el valor estimado de p10 = 0.780, el valor Z es 0.780/0.1066 = 7.32 
(aproximadamente). Si la verdadera p10 fuera en efecto cero, la probabilidad de obtener un valor Z igual o 
mayor que 7.32 es muy pequeña, por lo que rechazamos la hipótesis de que la verdadera p10 es cero. 

22 G.E. P. Box y D.A. Pierce, “Distribution of Residual Autocorrelations in Autoregressive Integrated Moving 
Average Time Series Models”, Journal of the American Statistical Association, vol. 65, 1970, pp. 1509-1526. 
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donde n = tamaño de la muestra y m = longitud del rezago. El estadístico O es común para pro- 
bar si una serie de tiempo es de ruido blanco. En muestras grandes, este estadístico se distribuye 
aproximadamente como la distribución ji cuadrada con m gl. En una aplicación, si la O calculada 
excede el valor O crítico de la distribución ji cuadrada en el nivel de significancia seleccionado, 
podemos rechazar la hipótesis nula de que todos los p+ (verdaderos) son iguales a cero; por lo 
menos algunos de ellos deben ser diferentes de cero. 

Una variante del estadístico O de Box-Pierce es el estadístico Ljung-Box (LB), que se define 


como? 


m ^2 
18=0(0+2)) (f) em (21.8.9) 
k=1 


Aunque en muestras grandes tanto el estadístico O como el estadístico LB siguen la distribución 
ji cuadrada con m gl, se ha visto que el estadístico LB tiene mejores propiedades en muestras 
pequeñas (más potente, en el sentido estadístico) que el estadístico Q.” 

De regreso al ejemplo del LPIB de la figura 21.8, el valor del estadístico O hasta el rezago 36 
es cercano a 4 096. La probabilidad de obtener tal valor de O según la hipótesis nula de que la 
suma de los 36 cuadrados de los coeficientes de autocorrelación estimados sea cero es práctica- 
mente nula, como lo muestran las cifras de la última columna. Por consiguiente, la conclusión es 
que la serie de tiempo LPIB probablemente es no estacionaria, con lo cual se refuerza la conjetura 
basada en la figura 21.1: la serie LPIB tal vez era no estacionaria. En el ejercicio 21.16 se pide 
al lector confirmar que las otras cuatro series de tiempo económicas de Estados Unidos también 
son no estacionarias. 


21.9 Prueba de raíz unitaria 


Otra prueba sobre estacionariedad (o no estacionariedad) que se populariza cada vez más se co- 
noce como prueba de raíz unitaria. Primero la explicaremos, luego la ilustraremos y después 
consideraremos algunas limitantes de esta prueba. 

El punto de partida es el proceso (estocástico) de raíz unitaria que vimos en la sección 21.4. 
Se inicia con 


Espiar -1<p<1 (21.4.1) 


donde 1, es un término de error de ruido blanco. 

Sabemos que si p = 1, es decir, en el caso de la raíz unitaria, (21.4.1) se convierte en un mo- 
delo de caminata aleatoria sin deriva, del cual sabemos también que es un proceso estocástico no 
estacionario. Por consiguiente, ¿por qué no simplemente hacer la regresión de Y, sobre su valor 
rezagado (de un periodo) Y, y se averigua si la p estimada es estadísticamente igual a 1? De 
ser así, Y, es no estacionaria. Ésta es la idea general de la prueba de raíz unitaria para la estacio- 
nariedad. 

Sin embargo, no podemos estimar la ecuación (21.4.1) por MCO y probar la hipótesis de que 
p = 1 por medio de la prueba £ acostumbrada, porque esa prueba tiene un sesgo muy marcado en 
el caso de una raíz unitaria. Por tanto, manipulamos (21.4.1) de la siguiente forma: restamos Y, 
de ambos miembros de la ecuación (21.4.1) para obtener: 

Y, — Y, 1 = pY — Yi t ue (21.9.1) 
= (p — DY, +u; e 
la cual también se expresa como: 
AY, =8Y,_1 + u: (21.9.2) 


donde ô = (p — 1) y A, como siempre, es el operador de primeras diferencias. 


23 G.M. Ljung y G.P.E. Box, “On a Measure of Lack of Fit in Time Series Models”, en Biometrika, vol. 66, 
1978, pp. 66-72. 

24 Los estadísticos Q y LB tal vez no resulten apropiados en todos los casos. Para conocer una crítica de lo 
anterior, consulte Maddala et al., op. cit., p. 19. 
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Por tanto, en la práctica, en vez de estimar (21.4.1), calculamos (21.9.2) y probamos la hi- 
pótesis (nula) de que ô = 0, y la hipótesis alternativa es que ô < 0 (nota 25). Si 8 = 0, entonces 
p = 1; es decir, tenemos una raíz unitaria, lo cual significa que la serie de tiempo en considera- 
ción es no estacionaria. 

Antes de proceder con la estimación de (21.9.2) debemos observar que si ô = 0, entonces 
(21.9.2) se convertirá en 


AY, = (Y, — Yı) = u; (21.9.3) 


Como u, es un término de error de ruido blanco, entonces es estacionario, lo cual significa que 
las primeras diferencias de una serie de tiempo de caminata aleatoria son estacionarias, una ob- 
servación que ya habíamos hecho. 

Ahora reconsideremos la estimación de (21.9.2). Esto es muy simple: sólo hay que tomar las 
primeras diferencias de Y, y hacer la regresión sobre Y,_,, a fin de ver si el coeficiente estimado 
de la pendiente en esta regresión (= $) es o no cero. Si es cero, concluimos que Y, es no estaciona- 
ria; pero si es negativa, se infiere que Y, es estacionaria.? La única interrogante es saber con qué 
prueba averiguar si el coeficiente estimado de Y, ¡ en (21.9.2) es o no cero. Uno estaría tentado a 
utilizar la prueba f usual. Por desgracia, según la hipótesis nula de que $ = 0 (es decir, p = 1), el 
valor £ del coeficiente estimado de Y,—;ı no sigue la distribución f ni siquiera en muestras grandes, 
es decir, no tiene una distribución normal asintótica. 

¿Cuál es la alternativa? Dickey y Fuller probaron que según la hipótesis nula de que $ = 0, 
el valor estimado ż del coeficiente Y,_¡ en (21.9.2) sigue el estadístico t (tau). Estos autores 
calcularon los valores críticos del estadístico tau con base en simulaciones Monte Carlo. Una 
muestra de esos valores críticos se da en el apéndice D, tabla D.7. La tabla es limitada, pero 
MacKinnon preparó tablas más extensas, ya incorporadas en diferentes software estadísticos.?” 
En la bibliografía, el estadístico o prueba tau se conoce como prueba Dickey-Fuller (DF), en 
honor a sus descubridores. Resulta interesante que si rechazamos la hipótesis de que ô = 0 (es 
decir, la serie de tiempo es estacionaria), podemos utilizar la prueba £ (de Student) usual. Tenga 
en cuenta que la prueba Dickey-Fuller es unidireccional porque la hipótesis alternativa es que 
ô<0(0p< 1). 

El procedimiento real para aplicar la prueba DF supone diversas decisiones. Al analizar la 
naturaleza del proceso de raíz unitaria en las secciones 21.4 y 21.5 observamos que un proceso 
de caminata aleatoria tal vez no tiene deriva, o quizá sí, o posiblemente tiene tendencia determi- 
nista y estocástica. A fin de permitir las distintas posibilidades, la prueba DF se estima en tres 
diferentes formas, es decir, conforme a tres hipótesis nulas: 


Y, es una caminata aleatoria: AY, =8Y,-1+u, (21.9.2) 
Y, es una caminata aleatoria con deriva: AY, = i +6Y,-1+u, (21.9.4) 


Y, es una caminata aleatoria con deriva 
alrededor de una tendencia 
determinista: AY, = bı + 2t + 8Y,- +u, (21.9.5) 


25 Porque ô = (p — 1), por lo que la estacionariedad p debe ser menor que uno. Para que esto suceda, 3 
debe ser negativa. 

26 D.A. Dickey y W.A. Fuller, “Distribution of the Estimators for Autoregressive Time Series with a Unit Root”, 
en Journal of the American Statistical Association, vol. 74, 1979, pp. 427-431. Véase también W.A. Fuller, In- 
troduction to Statistical Time Series, John Wiley £ Sons, Nueva York, 1976. 


27 j.G. MacKinnon, “Critical Values of Cointegration Test”, en R.E. Engle y C.W.J. Granger (eds.), Long-Run 
Economic Relationships: Readings in Cointegration, cap. 13, Oxford University Press, Nueva York, 1991. 


756 


Parte Cuatro Modelos de ecuaciones simultáneas y econometría de series de tiempo 


donde ź es la variable de tiempo o de tendencia. En cada caso, las hipótesis son: 


Hipótesis nula: Họ:ô = 0 (es decir, existe una raíz unitaria, la serie de tiempo es no estaciona- 
ria o tiene tendencia estocástica). 


Hipótesis alternativa: Hı: < 0 (es decir, la serie de tiempo es estacionaria, posiblemente 
alrededor de una tendencia determinista)? 


Si rechazamos la hipótesis nula, esto significa que 1) Y, es estacionaria con media cero en 
el caso de la ecuación (21.9.2) o que 2) Y, es estacionaria con una media distinta de cero en el 
caso de (21.9.4). En el caso de la ecuación (21.9.5), podemos probar que ô < 0 (es decir, no 
hay tendencia estocástica) y æ Æ O (es decir, la existencia de una tendencia determinista) simul- 
táneamente, mediante la prueba F pero con los valores críticos tabulados por Dickey y Fuller. 
Cabe señalar que una serie de tiempo puede contener tanto una tendencia estocástica como una 
determinista. 

Es extremadamente importante observar que los valores críticos de la prueba tau para probar 
la hipótesis de que 8 = 0 son diferentes en cada una de las tres especificaciones anteriores de la 
prueba DF, lo cual se ve claramente en el apéndice D, tabla D.7. Es más, si, por ejemplo, la es- 
pecificación (21.9.4) es correcta pero se estima (21.9.2), cometemos un error de especificación, 
cuyas consecuencias ya conocemos desde el capítulo 13. La misma regla se aplica si estimamos 
(21.9.4) en vez del verdadero (21.9.5). Desde luego, no hay forma de saber cuál especificación es 
la correcta. Resulta inevitable hacer pruebas de ensayo y error, no obstante la minería de datos. 

El procedimiento real de estimación es el siguiente: Estimamos (21.9.2), (21.9.3) o (21.9.4) 
mediante MCO; dividimos el coeficiente estimado de Y,_¡ en cada caso entre su error estándar 
a fin de calcular el estadístico tau (T) y consultamos las tablas DF (o cualquier software estadís- 
tico). Si el valor absoluto calculado del estadístico tau (|t|) excede la DF absoluta o los valores 
críticos tau de MacKinnon, rechazamos la hipótesis de que ô = 0, en cuyo caso la serie de tiempo 
es estacionaria. Por otra parte, si el |t| calculado no excede el valor crítico tau, no rechazamos la 
hipótesis nula, en cuyo caso la serie de tiempo es no estacionaria. Hay que asegurarse de utilizar 
los valores críticos t apropiados. En la mayoría de las aplicaciones, el valor tau es negativo. Por 
consiguiente, también vale decir que si el valor tau calculado (negativo) es más pequeño (es decir, 
más negativo) que el valor crítico tau, rechazamos la hipótesis nula (es decir, la serie de tiempo es 
estacionaria); de lo contrario, no la rechazamos (es decir, la serie de tiempo es no estacionaria). 

Regresemos al ejemplo de las series de tiempo del PIB de Estados Unidos. Para estas series, 
los resultados de las tres regresiones (21.9.2), (21.9.4) y (21.9.5) son los siguientes: la variable 
dependiente en cada caso es AY, = ALPIB,, donde LPIB es el logaritmo del PIB real. 


ALPIB,= 0.000968LPIB,_; 


(21.9.6) 
t= (12.9270)  R2=0.0147  d=1.3194 
ALPIB,= 0.0221 —  0.00165LPIB,_; 
(21.9.7) 
t= (2.4342) (=1.5294)  R2=0.00906 d= 1.3484 
ALPIB,= 0.2092 + 0.0002,  0.0269LPIB,_; 
t= (1.8991) (1.7040) (-1.8102) (21.9.8) 


R? = 0.0215 d = 1.3308 


28 Descartamos la posibilidad de que ô > O porque en ese caso p > 1, y de ser así, la serie de tiempo subya- 
cente sería explosiva. 
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El principal interés en todas estas regresiones radica en el valor t(= t) del coeficiente LPIB,_;. 
Si analizamos la tabla D.7 del apéndice D, observaremos que los valores críticos tau a 5% para 
un tamaño de muestra de 250 (el número más próximo a la muestra de 244 observaciones que 
estudiamos aquí) son —1.95 (sin intercepto, sin tendencia), —2.88 (intercepto pero sin tendencia) 
y —3.43 (intercepto y tendencia). EViews y otros paquetes estadísticos proporcionan valores cri- 
ticos para el tamaño de muestra del análisis. 

Antes de examinar los resultados, tenemos que decidir cuál de los tres modelos es el adecuado. 
Debemos descartar el modelo (21.9.6) porque el coeficiente LPIB,_;, que es igual a ô, es positivo. 
Pero en vista de que $ = (p — 1), una ô positiva implicaría que p > 1. Aunque es una posibilidad 
teórica, se descarta en este caso porque la serie de tiempo LPIB sería explosiva.?? Por tanto, no 
quedan más que los modelos (21.9.7) y (21.9.8). En ambos casos, el coeficiente estimado ô es 
negativo, lo cual implica que la p estimada es menor que 1. Para ambos modelos, los valores 
estimados p son 0.9984 y 0.9731, respectivamente. Ahora, la única pregunta pendiente es saber 
si estos valores son estadísticamente menores que 1 de manera significativa, para que podamos 
decir que la serie de tiempo del PIB es estacionaria. 

Para el modelo (21.9.7), el valor t estimado es —1.5294, mientras que el valor crítico t a 5%, 
como ya señalamos, es —2.88. Como en términos absolutos el primer valor es más pequeño que 
el segundo, la conclusión es que la serie de tiempo LPIB es no estacionaria.%% 

Sucede lo mismo con el modelo (21.9.8). El valor t calculado de — 1.8102, en términos abso- 
lutos, es menor incluso que el valor crítico a 5% de —3.43. 

Por tanto, con base en el análisis gráfico, el correlograma y la prueba Dickey-Fuller, la con- 
clusión es que para los periodos trimestrales de 1947 a 2007, la serie de tiempo LPIB de Estados 
Unidos fue no estacionaria; es decir, contenía una raíz unitaria, o tenía una tendencia estocástica. 


La prueba Dickey-Fuller aumentada (DFA) 


Al llevar a cabo la prueba DF en (21.9.2), (21.9.4) o (21.9.5) supusimos que el término de error 
u, no estaba correlacionado. Pero Dickey y Fuller desarrollaron una prueba cuando dicho tér- 
mino sí está correlacionado, la cual se conoce como prueba Dickey-Fuller aumentada (DFA). 
Esta prueba implica “aumentar” las tres ecuaciones anteriores mediante la adición de los valores 
rezagados de la variable dependiente A Y,. Para un ejemplo específico, suponga que utilizamos 
(21.9.5). La prueba DFA consiste en este caso en estimar la siguiente regresión: 
m 
AY, = bi + Bat +8Y,1+ DAY, HEr (21.9.9) 
i=l 

donde e, es un término de error puro de ruido blanco y donde AY, ¡ = (Y1 — Y2), AY, 
= (Y,-2 — Y,_3), etc. El número de términos de diferencia rezagados que debemos incluir con 
frecuencia se determina de manera empírica, con la idea de incluir los términos suficientes para 
que el término de error en (21.9.9) no esté serialmente relacionado y sea posible obtener una 
estimación insesgada de ô, el coeficiente de Y, ¡ rezagado. EViews 6 tiene una opción que selec- 
ciona automáticamente la longitud del rezago con base en los criterios de información de Akaike, 
Schwarz y otros. En la DFA se sigue probando 3 = 0, y además esta prueba sigue la misma distri- 
bución asintótica que el estadístico DF, por lo que se sirven los mismos valores críticos. 

Con el fin de dar una idea general de este procedimiento estimamos (21.9.9) para la serie 
LPIB. Como se tienen datos trimestrales, decidimos usar cuatro rezagos. Los resultados de la 
regresión DFA fueron los siguientes:”' 


22 De manera más técnica, como (21.9.2) es una ecuación diferencial de primer orden, la llamada condición 
de estabilidad requiere que |p| < 1. 

30 Otra forma de expresar esto sería que el valor t calculado deba ser más negativo que el valor crítico t, lo 
cual no sucede aquí. Por tanto, mantenemos la conclusión. Como en general se espera que ô sea negativa, 
el estadístico estimado zt tendrá signo negativo. Por tanto, un valor t grande y negativo suele ser un indicio 
de estacionariedad. 


31 Se consideraron diferencias rezagadas de orden superior, pero fueron insignificantes. 
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ALPIB, = 0.2677 + 0.0003 — 0.0352LPIB,-¡ + 0.2090ALPIB,_¡ + 0.1451 ALPIB,_2 — 0.0621 ALPIB, 3 — 0.0876 ALPIB, 


t = (2.4130) (2.2561) (-2.3443) (4.6255) (2.1575) (—0.9205) (—1.3438) 


R? = 0.1617 d = 2.0075 
(21.9.10) 


El valor {(= 7) del coeficiente LPIB,—ı rezagado (= ô) es —2.3443, que en términos absolutos 
es incluso mucho menor que el valor crítico t a 10% de —3.1378, lo cual indica de nuevo que 
aun después de tener cuidado de la posible autocorrelación en el término de error, la serie LPIB 
es no estacionaria. (Nota: El comando @trend de EViews genera automáticamente la variable de 
tiempo o tendencia.) 

¿Puede ser éste el resultado de haber elegido sólo cuatro valores rezagados de ALPIB? Apli- 
camos el criterio de Schwartz con 14 valores rezagados de ALPIB, lo que arrojó el valor tau ô de 
—1.8102. Aun entonces, este valor tau no fue significativo en el nivel de 10% (el valor crítico tau 
en este nivel fue de —3.1376). Al parecer, el logaritmo del PIB es no estacionario. 


Prueba de la significancia de más de un coeficiente: 
prueba F 


Suponga que estimamos el modelo (21.9.5) y probamos la hipótesis de que $; = 2 = 0, es 
decir, el modelo es MCA sin deriva ni tendencia. Para probar esta hipótesis conjunta utilizamos 
la prueba F restringida analizada en el capítulo 8. Es decir, estimamos (21.9.5) (la regresión 
no restringida) y luego estimamos (21.9.5) otra vez, lo que elimina el intercepto y la tendencia. 
Luego utilizamos la prueba F restringida, como se muestra en la ecuación (8.6.9), excepto que no 
se emplea la tabla F convencional a fin de obtener los valores criticos F. Como hicieron para el 
estadístico t, Dickey y Fuller desarrollaron valores críticos F para esta situación; una muestra de 
lo anterior se da en el apéndice D, tabla D.7. En el ejercicio 21.27 se proporciona un ejemplo 
de lo anterior. 


Las pruebas de raíz unitaria Phillips-Perron (PP)?? 

Un supuesto Importante de la prueba DF es que los términos de error u, están idéntica e inde- 
pendientemente distribuidos. La prueba DFA ajusta la prueba DF a fin de tener cuidado de una 
posible correlación serial en los términos de error al agregar los términos de diferencia rezagados 
de la regresada. Phillips y Perron utilizan métodos estadísticos no paramétricos para evitar la 
correlación serial en los términos de error, sin añadir términos de diferencia rezagados. Como 
la distribución asintótica de la prueba PP es la misma que la prueba DFA, no examinaremos con 
mayor detalle este tema. 


Prueba de cambios estructurales 


Los datos macroeconómicos introducidos en la sección 21.1 (consulte los datos reales en el 
sitio Web del libro) corresponden al periodo 1947-2007, 61 años. En este periodo la economía 
de Estados Unidos pasó por varios ciclos económicos de diferentes duraciones. Los ciclos eco- 
nómicos están marcados por periodos de recesiones y de expansiones. Es muy probable que un 
ciclo económico sea distinto de otro, lo que puede reflejar rupturas estructurales o cambios 
estructurales en la economía. 

Por ejemplo, considere el primer embargo petrolero, en 1973. Los precios del petróleo se cua- 
driplicaron. Los precios volvieron a aumentar de manera sustancial después del segundo embargo 
petrolero, en 1979. Como es natural, estas conmociones afectan el comportamiento económico. 
Por tanto, si queremos hacer una regresión del gasto de consumo personal (GCP) sobre el ingreso 
personal disponible (IPD), es muy probable que el intercepto, la pendiente o ambas varien de un 
ciclo económico a otro (recuerde la prueba de Chow de rupturas estructurales). Esto es lo que se 
entiende por cambios estructurales. 


32 P.C.B. Phillips y P. Perron, “Testing for a Unit Root in Time Series Regression”, en Biometrika, vol. 75, 1988, 
pp. 335-346. La prueba PP ahora se incluye en varios software estadísticos. 
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Por ejemplo, Perron sostiene que las pruebas estándar de la hipótesis de raíz unitaria pueden 
no ser confiables en presencia de cambios estructurales.’ Existen varias formas de probar los 
cambios estructurales y explicarlos; la más sencilla supone el uso de variables dicótomas. Sin 
embargo, un análisis a fondo de las diversas pruebas de rupturas estructurales va mucho más allá 
del texto y es mejor dejarlo a las referencias.** No obstante, vea el ejercicio 21.28. 


Crítica de las pruebas de raíz unitaria3* 


Se han analizado varias pruebas de raíz unitaria y además existen todavía otras más. La pregunta 
es: ¿por qué hay tantas pruebas de raíz unitaria? La respuesta radica en su tamaño y potencia. 
Por tamaño de la prueba nos referimos al nivel de significancia (es decir, la probabilidad de co- 
meter un error tipo I), y por potencia de una prueba a la probabilidad de rechazar la hipótesis nula 
cuando es falsa. Calculamos la potencia de una prueba al restar la probabilidad de un error tipo 
II de 1; el error tipo II es la probabilidad de aceptar una hipótesis nula falsa. El máximo poder es 
1. Casi todas las pruebas de raíz unitaria se basan en la hipótesis nula de que la serie de tiempo 
que se analiza tiene una raíz unitaria; o sea, es no estacionaria. La hipótesis alterna es que la serie 
de tiempo es estacionaria. 


Tamaño de la prueba 

Recordará, del capítulo 13, la distinción entre los niveles de significancia nominales y los verda- 
deros. La prueba DF es sensible a la forma en que se lleva a cabo. Recuerde que analizamos tres 
variedades de pruebas DF: 1) una caminata puramente aleatoria, 2) una caminata aleatoria con 
deriva y 3) una caminata aleatoria con deriva y tendencia. Si, por ejemplo, el verdadero modelo 
es 1) pero se estima un modelo 2) y se concluye que, por ejemplo, con un nivel de significancia 
de 5% la serie es estacionaria, esta conclusión puede ser errónea porque el verdadero nivel de sig- 
nificancia en este caso es mucho mayor que 5%.*% El tamaño de la distorsión también puede 
deberse a la exclusión de componentes de promedios móviles (PM) del modelo (sobre promedios 
móviles, véase el capítulo 22). 


Potencia de la prueba 


La mayoría de las pruebas del tipo DF tienen poco poder; es decir, tienden a aceptar la nulidad 
de la raíz unitaria con más frecuencia de la garantizada. En otras palabras, estas pruebas pueden 
encontrar una raíz unitaria aunque no exista. Hay varias razones para esto. En primer lugar, la 
potencia depende del lapso de los datos más que del solo tamaño de la muestra. Para una mues- 
tra dada de tamaño n, la potencia es mayor cuando el lapso es grande. En consecuencia, la(s) 
prueba(s) basada(s) en 30 observaciones sobre un lapso de 30 años quizá tengan más potencia 
que una basada por ejemplo en 100 observaciones durante un lapso de 100 días. En segundo 
lugar, si p ~ 1 pero no es exactamente 1, la prueba de raíz unitaria puede diagnosticar la serie de 
tiempo como no estacionaria. En tercer lugar, estos tipos de prueba suponen una raíz unitaria; 
es decir, suponen que la serie de tiempo dada es /(1). Pero si una serie de tiempo es integrada de 
orden mayor que 1, por ejemplo, /(2), habrá más de una raíz unitaria. De ser así, se puede utili- 
zar la prueba Dickey-Pantula.?” En cuarto lugar, si hay rupturas estructurales en una serie de 
tiempo (véase el capítulo sobre variables dicótomas) debidas, por ejemplo, al embargo petrolero 
por parte de la OPEP, las pruebas de raíz unitarias quizá no las reflejen. 


33 P, Perron, “The Great Crash, the Oil Price Shock and the Unit Root Hypothesis”, Econometrica, vol. 57, 
1989, pp. 1361-1401. 


34 Hay un análisis accesible en James H. Stock y Mark W. Watson, Introduction to Econometrics, 2a. ed., Pear- 
son/Addison-Wesley, Boston, 2007, pp. 565-571. Para un análisis más minucioso, véase G.S. Maddala e In- 
Moo Kim, Unit Roots, Cointegration, and Structural Change, Cambridge University Press, Nueva York, 1998. 


35 Para un análisis detallado, véase Terrence C. Mills, op. cit., pp. 87-88. 
36 Para un experimento Monte Carlo al respecto, véase Charemza et al., op. cit., p. 114. 


37 D.A. Dickey y S. Pantula, “Determining the Order of Differencing in Autoregressive Processes”, en Journal 
of Business and Economic Statistics, vol. 5, 1987, pp. 455-461. 
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Por tanto, al aplicar las pruebas de raíz unitaria se deben tener en cuenta sus limitaciones. 
Desde luego, Perron y Ng, Elliot, Rothenberg y Stock, Fuller y Leybounre** modificaron esas 
pruebas. Debido a lo anterior, Maddala y Kim afirman que las pruebas tradicionales DF, DFA y 
PP deben descartarse. Quizá eso llegue a suceder conforme los paquetes de software de econo- 
metría incorporen nuevas pruebas. Pero debemos añadir que hasta la fecha no existe una prueba 
uniformemente poderosa de la hipótesis de la raíz unitaria. 


21.10 Transformación de las series de tiempo no estacionarias 


FIGURA 21.9 
Primeras diferencias de 
los logaritmos del PIB 
de Estados Unidos, 
1947-2007 (trimestral). 


Ahora que conocemos el problema asociado a las series de tiempo no estacionarias, surge la 
pregunta práctica de qué hay que hacer. Para evitar el problema de la regresión espuria que pu- 
diese surgir al hacer la regresión de una serie de tiempo no estacionaria sobre una o más series 
de tiempo no estacionarias tenemos que transformar las series de tiempo no estacionarias en 
estacionarias. El método de transformación depende de que las series de tiempo sean procesos 
estacionarios en diferencias (PED) o procesos estacionarios con tendencia (PET). Considerare- 
mos cada caso a su debido tiempo. 


Procesos estacionarios en diferencias 


Si una serie de tiempo tiene una raíz unitaria, las primeras diferencias de tales series son estaciona- 
rias.’ En consecuencia, la solución aquí es tomar las primeras diferencias de las series de tiempo. 
Al reconsiderar la serie de tiempo LPIB de Estados Unidos, ya vimos que tiene raíz unitaria. 
Ahora veremos lo que sucede si se toman las primeras diferencias de la serie LPIB. 
Sea ALPIB, = (LPIB, — LPIB,_¡). Por conveniencia, sea D, = ALPIB,. Ahora considere la 
siguiente regresión: 


AD, = 0.00557—  0.6711D,_; 
t= (7.1407)  (=11.0204) (21.10.1) 
R? = 0.3360 d = 2.0542 


El valor crítico t a 1% para la DF es —3.4574. Como la t calculada (= t) de — 11.0204 es más 
negativa que el valor crítico, concluimos que la serie LPIB en primeras diferencias es estacio- 
naria; o sea, es Z(0), como se muestra en la figura 21.9. Si comparamos esta figura con la 21.1, 
observará las evidentes diferencias entre ambas. 
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38 Un estudio de estas pruebas se encuentra en Maddala et al., op. cit., cap. 4. 


3? Si una serie de tiempo es 1(2), contendrá dos raíces unitarias, en cuyo caso tendremos que diferenciar dos 
veces. Si es I(d), debe diferenciarse d veces, donde d es cualquier entero. 


FIGURA 21.10 
Primeras diferencias 
(delta LPIB) y desvia- 
ciones de la tendencia 
(RESI!) para el logaritmo 
del PIB, 1947-2007 (tri- 
mestral). 
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Procesos estacionarios en tendencia 

Como vimos en la figura 21.5, un PET es estacionario alrededor de la línea de tendencia. Por 
tanto, la manera más sencilla de convertir en estacionaria una serie de tiempo es hacer la regre- 
sión de ella sobre el tiempo y los residuos de tal regresión serán estacionarios. En otras palabras, 
realizamos la siguiente regresión: 


Y, = bi + Bat + u; (21.10.2) 


donde Y, es la serie de tiempo estudiada y f es la variable de tendencia medida de manera crono- 
lógica. 
Ahora bien, 


4, = (Y, — Bi — Bat) (21.10.3) 
será estacionaria. A ù; se le conoce como serie de tiempo sin tendencia. 
Es importante notar que tal vez la tendencia sea no lineal. Por ejemplo, puede ser 


Y, = Bi + Bat + Bat? +u: (21.10.4) 


que es una serie con tendencia cuadrática. De ser así, los residuos de (21.10.4) serán ahora una 
serie (cuadrática) de tiempo sin tendencia. 

Debe señalarse que si una serie de tiempo es PED pero se trata como si fuera PET, esto se 
conoce como hipodiferenciación. Por otra parte, si una serie de tiempo es PET pero se le trata 
como PED, se conoce como hiperdiferenciación. Las consecuencias de estos errores de especi- 
ficación pueden ser graves, según la manera en que se manejen las propiedades de correlación de 
los términos de error resultantes.4 

Para ver qué sucede si se confunde una serie PET con una serie PED o viceversa, la figura 
21.10 muestra las primeras diferencias de LPIB y los residuos del LPIB estimado a partir de la 
regresión PET (21.10.2): 
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40 Para un análisis detallado de esto, véase Maddala et al., op. cit., sección 2.7. 
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Un vistazo a esta figura revela que las primeras diferencias del logaritmo del PIB real son esta- 
cionarias (como lo confirma la regresión [21.10.1]), pero los residuos de la línea de tendencia 
(RESILI) no. 

En resumen, “. . . es muy importante aplicar el tipo correcto de transformación de estacionarie- 
dad a los datos si no son ya estacionarios. La mayoría de los mercados financieros generan datos 
sobre precios, tasas o rendimientos que son no estacionarios debido a una tendencia estocástica 
más que determinista. Rara vez es apropiado suprimir la tendencia de los datos ajustando una 
línea de tendencia y tomando desviaciones. En cambio, para suprimir la tendencia de los datos es 
preciso tomar las primeras diferencias, por lo general el logaritmo del precio o las tasas, porque en- 


tonces los datos estacionarios transformados corresponderán a los rendimientos del mercado”.*! 


21.11 Cointegración: regresión de una serie de tiempo con raíz 


unitaria sobre otra serie de tiempo con raíz unitaria 


Ya advertimos que la regresión de una serie de tiempo no estacionaria sobre otra no estacionaria 
puede causar una regresión espuria. Suponga que consideramos las series de tiempo LGCP y 
LIDP presentadas en la sección 21.1 (consulte los datos reales en el sitio Web del libro). Si somete 
estas series de manera individual a un análisis de raíz unitaria encontrará que ambas son /(1); es 
decir, contienen una tendencia estocástica. Es muy posible que las dos series compartan la misma 
tendencia común, por lo que la regresión de una sobre la otra no será necesariamente espuria. 

Para ser específicos, usaremos los datos de las series de tiempo económicas de Estados Unidos 
(véase la sección 21.1 y el sitio Web del libro) y ejecutaremos la siguiente regresión de LGCP 
sobre LIPD: 


LGCP, = 8, + B,LIDP, + u; (21.11.1) 


donde L significa logaritmo. 6, es la elasticidad del gasto de consumo personal real respecto 
del ingreso personal disponible real. Para efectos ilustrativos, le denominaremos elasticidad del 
consumo. Esto se expresa como: 


u, = LGCP, — $; — B,LIDP, (21.11.2) 


Suponga que ahora sometemos u, a un análisis de raíz unitaria y descubrimos que es estacionaria, 
es decir, /(0). Ésta es una situación interesante, pues LGCP, y LIDP, son individualmente /(1), 
es decir, tienen tendencias estocásticas, y su combinación lineal (21.11.2) es (0). Se puede decir 
que la combinación lineal cancela las tendencias estocásticas de las dos series. Si consideramos 
el consumo y el ingreso como dos variables /(1), el ahorro (definido como ingreso menos con- 
sumo) puede ser /(0). Como resultado, una regresión del consumo sobre el ingreso, como en 
(21.11.1), puede ser significativa (es decir, no espuria). En este caso decimos que las dos varia- 
bles están cointegradas. En términos económicos, dos variables serán cointegradas si existe una 
relación de largo plazo, o de equilibrio, entre ambas. La teoría económica a menudo se expresa 
en términos de equilibrio, como la teoría monetaria cuantitativa de Fisher o la teoría de la paridad 
del poder adquisitivo (PPA), por mencionar algunas. 

En resumen, en tanto se verifique que los residuos de las regresiones como (21.11.1) son /(0) 
o estacionarios, la metodología tradicional de regresión (inclusive las pruebas £ y F) aprendida 
hasta ahora es aplicable a las series de tiempo (no estacionarias). La contribución valiosa de los 
conceptos de raíz unitaria, cointegración, etc., es que obligan a determinar si los residuos de la 
regresión son estacionarios. Como observa Granger: “Una prueba para la cointegración puede 
considerarse como una preprueba para evitar las situaciones de regresiones espurias”.* 

En el lenguaje de la teoría de la cointegración, una regresión como (21.11.1) se conoce como 
regresión cointegrante, y el parámetro de pendiente $ como parámetro cointegrante. El con- 


4 Carol Alexander, op. cit., p. 324. 


42 C.W.J. Granger, “Developments in the Study of Co-Integrated Economic Variables”, en Oxford Bulletin of 
Economics and Statistics, vol. 48, 1986, p. 226. 
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cepto de cointegración puede extenderse a un modelo de regresión que contenga k regresoras, en 
cuyo caso se tendrán k parámetros cointegrantes. 


Prueba de cointegración 


En las publicaciones especializadas se han propuesto varios métodos para probar la cointegra- 
ción. Aquí consideraremos un método relativamente sencillo: la prueba de raíz unitaria DF o 
DEA sobre los residuos estimados a partir de la regresión cointegrante.* 


Prueba de Engle-Granger (EG) o prueba de Engle-Granger aumentada (EGA) 
Ya sabemos cómo aplicar las pruebas de raíz unitaria DF o DFA. Sólo requerimos estimar una re- 
gresión como (21.11.1), obtener los residuos y utilizar la prueba DF o DFA.** Sin embargo, debe 
tomarse una precaución. Como la u, estimada se basa en el parámetro de cointegración estimado 
B2, los valores críticos de significancia DF y DFA no son del todo apropiados. Engle y Granger 
calcularon estos valores, los cuales se encuentran en las referencias. Por consiguiente, en el 
contexto actual, las pruebas DF y DFA se conocen como la prueba de Engle-Granger (EG) 
y la prueba de Engle-Granger aumentada (EGA). Sin embargo, varios paquetes de software 
reportan actualmente estos valores críticos junto con otros resultados. 

Ilustraremos estas pruebas. Con los datos introducidos en la sección 21.1 y publicados en el 
sitio Web del libro, primero realizamos la regresión de LGCPC sobre LIPDC y obtuvimos la 
siguiente regresión: 


GCP. = -0.1942 +  1.0114LIDP, 
t= (-8.2328) (348.5429) (21.11.3) 


R? = 0.9980 d= 0.1558 


Como LGCP y LIDP son no estacionarios en lo individual, existe la posibilidad de que esta re- 
gresión sea espuria. Pero cuando llevamos a cabo una prueba de raíz unitaria sobre los residuos 
obtenidos en (21.11.3), resultó lo siguiente: 


Añ, = —0.0764%,_1 
t = (-3.0458) (21.11.4) 
R? = 0.0369 d= 2.5389 


Los valores críticos asintóticos Engle-Granger a 5% y 10% son de alrededor de —3.34 y —3.04, 
respectivamente. Por tanto, los residuos de la regresión son no estacionarios en el nivel de 5%. 
Sería dificil aceptar esta causa, pues la teoría económica indica que debe haber una relación es- 
table entre GCP e IPD. 

Volveremos a estimar la ecuación (21.11.3) con la variable de tendencia y luego veremos si 
los residuos de esta ecuación son estacionarios. Primero presentaremos los resultados y después 
analizaremos lo que ocurre. 


LGCP = 2.8130+ 0.0037, + 0.5844LIPD, 
t = (21.3491) (22.9394) (31.2754) (21.11.3a) 
R2=0.9994 d= 0.2956 


43 Esta diferencia existe entre pruebas de raíces unitarias y pruebas de cointegración. Como señalan David A. 
Dickey, Dennis W. Jansen y Daniel |. Thornton: “Las pruebas para raíces unitarias se realizan sobre series de 
tiempo univariadas [es decir, singulares]. En contraste, la cointegración trata con la relación entre un grupo 
de variables, en donde cada una (incondicionalmente) tiene una raíz unitaria”. Véase su artículo “A Primer 
on Cointegration with an Application to Money and Income”, en Economic Review, Federal Reserve Bank 

of St. Louis, marzo-abril de 1991, p. 59. Como el nombre lo indica, es una introducción excelente para la 
prueba de cointegración. 


44 Si GCP e IPD no están cointegrados, las combinaciones lineales que de ellos se hagan no serán estaciona- 
rias y, por consiguiente, los residuos us tampoco lo serán. 

45 R.F. Engle y C.W.J. Granger, “Co-integration and Error Correction: Representation, Estimation and Test- 
ing”, en Econometrica, vol. 55, 1987, pp. 251-276. 
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Para ver si los residuos de esta regresión son estacionarios, obtuvimos los siguientes resultados 
(compare con la ecuación [21.11.4]): 


Au, = -0.1498%,-1 
t = (4.4545) (21.11.4a) 
R? = 0.0758 d = 2.3931 


Nota: ú, es el residuo de la ecuación (21.11.3a). 

La prueba DF muestra ahora que estos residuos son estacionarios. Aunque se use la prueba 
DFA con varios rezagos, los residuos siguen siendo estacionarios. 

¿Qué sucede aquí? Aunque los residuos de la regresión (21.11.4a) son estacionarios, es decir, 
1(0), son estacionarios alrededor de una tendencia de tiempo determinista, que es lineal. Es de- 
cir, los residuos son /(0) más una tendencia lineal. Como ya señalamos, una serie de tiempo 
puede contener tanto una tendencia determinista como una estocástica. 

Antes de continuar, debe señalarse que estos datos de series de tiempo abarcan un periodo 
largo (61 años). Es muy posible que, a causa de cambios estructurales en la economía de Estados 
Unidos durante este periodo, los resultados y conclusiones difieran. En el ejercicio 21.28 se le 
pedirá comprobar esta posibilidad. 


Cointegración y mecanismo de corrección de errores (MCE) 

Acabamos de demostrar que, teniendo en cuenta la tendencia (lineal), LGCP y LIPD están coin- 
tegradas, es decir, hay una relación de equilibrio de largo plazo entre las dos. Desde luego, en el 
corto plazo puede haber desequilibrio. En consecuencia, podemos tratar el término de error en 
la siguiente ecuación como el “error de equilibrio”. Además, con este término de error podemos 
relacionar el comportamiento de corto plazo del GCP con su valor de largo plazo: 


u, = LGCP, — $; — B2LIPD — bst (21.11.5) 


El mecanismo de corrección de errores (MCE), utilizado por primera vez por Sargan* y 
popularizado más tarde por Engle y Granger, corrige el desequilibrio. Un importante teorema, 
conocido como teorema de representación de Granger, afirma que si dos variables Y y X están 
cointegradas, la relación entre las dos se expresa como MCE. Para ver lo que esto significa, re- 
vertiremos el ejemplo de GCP e IPD. Ahora considere el siguiente modelo: 


ALGCP,= 0% + 04 ALIPD, + 070,1 + €; (21.11.6) 


donde e, es un término de error de ruido blanco y u,_¡ es el valor rezagado del término de error 
de la ecuación (21.11.5). 

La ecuación MCE (21.11.5) establece que ALGCP depende de ALIPD y también del término 
de error de equilibrio. Si este último es diferente de cero, el modelo no está en equilibrio. 
Suponga que ALIPD es cero y que u1 es positiva. Esto significa que LGCP,_¡ es dema- 
siado alto para estar en equilibrio, es decir, LGCP,_¡ está por encima de su valor de equilibrio 
(æo + a¡LIDP,_¡). Como se espera que œz sea negativa, el término «au, es negativo y, por 
tanto, ALGCP, será negativo para restablecer el equilibrio. Es decir, si LGCP, está por arriba de 
su valor de equilibrio, comenzará a disminuir en el siguiente periodo a fin de corregir el error 
de equilibrio; de ahí el nombre de MCE. De igual manera, si u;—ı es negativa (es decir, LGCP 
está por debajo de su valor de equilibrio), «274,1 será positivo, lo cual provocará que ALGCP, sea 
positivo, lo que provocará que LGCP, se incremente en el periodo t. Por tanto, el valor absoluto 
de a, determina la rapidez con que se restablecerá el equilibrio. En la práctica, u,_, se estima 


46 ].D. Sargan, “Wages and Prices in the United Kingdom: A Study in Econometric Methodology”, publicado 
en K.F. Wallis y D.F. Hendry (eds.), Quantitative Economics and Econometric Analysis, Basil Blackwell, Oxford, 
Inglaterra, 1984. 


47 El siguiente análisis se basó en Gary Koop, op. cit., pp. 159-160, y Kerry Peterson, op. cit., sección 8.5. 
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por ú,-1 = (LGCP, — Bi — Ê:LIPD — ÊD. Tenga en cuenta que se espera que el coeficiente de 
corrección del error œz sea negativo (¿por qué?). 
De regreso al ejemplo ilustrativo, la contraparte empírica de (21.11.6) es: 


ÁLGCP, = 0.0061 + 0.2967ALIDP,-  0.1223%,_¡ 
t= (9.6753) (6.2282) (-3.8461) (21.11.7) 
R2=0.16588.  d=2.1496 


Estadísticamente, el término MCE es significativo, lo que indica que el GCP se ajusta al IPD 
con un rezago; sólo alrededor de 12% de la discrepancia entre el GCP de largo y corto plazos se 
corrige dentro de un trimestre. 
En la regresión (21.11.7) observamos que la elasticidad del consumo de corto plazo es de casi 
0.29. La elasticidad de largo plazo es de casi 0.58, lo cual se observa en la ecuación (21.11.3a). 
Antes de concluir esta sección, es importante recordar la recomendación de S. G. Hall: 


Mientras que el concepto de cointegración es sin duda un fundamento teórico importante del modelo 
de corrección de errores, hay aún diversos problemas en torno a su aplicación práctica; los valores 
críticos y el desempeño en muestras pequeñas de muchas de las pruebas son desconocidos para un 
amplio rango de modelos; la inspección bien informada del correlograma puede ser aún una herra- 
mienta importante. 


21.12 Algunas aplicaciones económicas 


Concluimos este capítulo con el examen de algunos ejemplos concretos. 


EJEMPLO 21.1 
Oferta mensual de 
dinero M1 en 
Estados Unidos, de 
enero de 1959 a 1 
de marzo de 2008 


La figura 21.11 muestra la oferta de dinero M1 en Estados Unidos de enero de 1959 a 1 de 
marzo de 2008. De lo que sabemos sobre la estacionariedad, parece que la serie de tiempo 
oferta de dinero M1 es no estacionaria, lo cual se confirma mediante un análisis de raíz unitaria. 


FIGURA 21.11 Oferta de dinero en Estados Unidos de enero de 1959 a 
marzo de 2008. 
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(continúa) 


48 S.G. Hall, “An Application of the Granger and Engle Two-Step Estimation Procedure to the United 
Kingdom Aggregate Wage Data”, en Oxford Bulletin of Economics and Statistics, vol. 48, núm. 3, agosto de 
1986, p. 238. Véase también John Y. Campbell y Pierre Perron, “Pitfalls and Opportunities: What Macroeco- 
nomists Should Know about Unit Roots”, en NBER (National Bureau of Economic Research), Macroeconomics 
Annual 1991, pp. 141-219. 
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(continuación) 
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(Nota: Para ahorrar espacio, no se dan los datos reales, pero pueden obtenerse de la Federal 
Reserve Board o el Federal Reserve Bank of St. Louis.) 


AM*= —-0.1347 + 0.0293t—  0.0102M;_; 
t=(-0.14) (2.62) (22.30) (21.12.1) 
R2=0.0130 d= 2.2325 


Los valores críticos t a 1%, 5% y 10% son —3.9811, —3.4210 y —3.1329, respectivamente. 
Como el valor t de —2.30 es menos negativo que cualquiera de estos valores críticos, la con- 
clusión es que la serie de tiempo M1 es no estacionaria; o sea, contiene una raíz unitaria o es 
I(1). Aunque se introdujeron diversos valores rezagados de AM, (al estilo DFA), la conclusión no 
varió. Por otra parte, descubrimos que las primeras diferencias de la oferta de dinero M1 eran 
estacionarias (verifique esto). 


EJEMPLO 21.2 
Tipo de cambio 
EUA/RU: Enero 
de 1971 a abril de 
2008 


FIGURA 21.12 
Tipo de cambio Estados 
Unidos/RU: enero de 
1971 a abril de 2008. 


La figura 21.12 proporciona la gráfica del tipo de cambio ($/£) de enero de 1971 a abril de 
2008 para un total de 286 observaciones. A estas alturas, el lector debe reconocer que esta serie 
de tiempo es no estacionaria. Al efectuar las pruebas de raíz unitaria, obtuvimos los siguientes 
estadísticos t: —0.82 (sin intercepto ni tendencia), —1.96 (intercepto) y —1.33 (con intercepto 
y tendencia). Cada uno de ellos, en valor absoluto, fue menor que su valor crítico t tomado de 
las tablas DF apropiadas, por lo cual se confirma la impresión gráfica de que la serie de tiempo 
del tipo de cambio EUA/RU es no estacionaria. 
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EJEMPLO 21.3 
Índice de precios al 
consumidor (IPC) 
en Estados Unidos 
de enero de 1947 a 
marzo de 2008 


La figura 21.13 muestra el IPC en Estados Unidos de enero de 1947 a marzo de 2008, para un 
total de 733 observaciones. La serie IPC, al igual que la serie M1 ya considerada, muestra una 
tendencia ascendente sostenida. El ejercicio de raíz unitaria proporcionó los siguientes resulta- 
dos: 


ACPl:= —0.01082 + 0.00068t — 0.00096CPI;_¡ + 0.40669ACPl;_; 
t= (-0.54) (420 (ELNID (12.03) 
R2= 0.3570 d= 1.9295 


(21.12.2) 


EJEMPLO 21.3 


(continuación) 
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FIGURA 21.13 IPC en Estados Unidos, enero de 1947 a marzo de 2008. 
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El valor t (= 7) del IPC;_¡ es —1.77. El valor crítico a 10% es —3.1317. Como, en términos absolu- 
tos, la t calculada es menor que la z crítica, la conclusión es que el IPC no es una serie de tiempo 
estacionaria. Podemos caracterizar lo anterior como una tendencia estocástica (¿por qué?). Sin 
embargo, si tomamos las primeras diferencias de la serie IPC, descubrirá que son estacionarias. 
Por tanto, el IPC es una serie de tiempo estacionaria en diferencias (ED). 


EJEMPLO 21.4 
¿Están cointegradas 
las tasas de los pa- 
garés del Tesoro a 
tres y seis meses? 


FIGURA 21.14 
Tasas de los pagarés del 
Tesoro de Estados Uni- 
dos a tres y seis meses 
(con vencimiento cons- 
tante). 


La figura 21.14 presenta la gráfica de las tasas de los pagarés del Tesoro de Estados Unidos (con 
vencimiento constante) a tres y seis meses, de enero de 1982 a marzo de 2008, para un total 
de 315 observaciones. ¿Muestra la gráfica que las dos tasas están cointegradas? Es decir, ¿existe 
una relación de equilibrio entre ambas? Con base en la teoría financiera, se podría esperar que 
así sucediera; de otra manera, los árbitros aprovecharían cualquier discrepancia entre las tasas de 
corto y largo plazos. En primer lugar, veamos si las dos series de tiempo son estacionarias. 
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EJEMPLO 21.4 


(continuación) 


Con base en el modelo de caminata puramente aleatoria (es decir, sin intercepto ni ten- 
dencia), ambas tasas fueron estacionarias. Después de incluir el intercepto y la tendencia, así 
como una diferencia rezagada, el resultado señaló que las dos tasas pueden ser estacionarias en 
tendencia; el coeficiente de tendencia en ambos casos fue negativo y significativo en un nivel 
de 7%. Así, según los resultados que se acepten, las dos tasas son estacionarias o estacionarias 
en tendencia. 

Al hacer la regresión de la tasa de los pagarés del Tesoro a seis meses (TB6) sobre la de tres 
meses, obtuvimos la siguiente regresión: 


TB6, = 0.0842 + 1.0078TB3; 
t = (3.65) (252.39) (21.12.3) 
REUS d=0/035 
Al aplicar la prueba de raíz unitaria a los residuos de la regresión anterior descubrimos que los 
residuos eran estacionarios, lo cual indica que las tasas de interés de los pagarés a tres y seis 
meses estaban cointegradas. Con este conocimiento obtuvimos el siguiente modelo de correc- 
ción del error (MCE): 
ATB6; = —0.0047 + 0.8992ATB3;— 0.18550 
r= C082) C77 (25.69) (21.12.4) 
REO 880 d= 153706 


donde ú;-1 es el valor rezagado del término de corrección del error para el periodo anterior. 
Como muestran estos resultados, 0.19 de la discrepancia en las dos tasas de interés del mes an- 
terior se elimina al siguiente mes.1? Además, los cambios de corto plazo en las tasas de interés de 
los pagarés del Tesoro a tres meses se reflejan de inmediato en la tasa de interés de los pagarés 
del Tesoro a seis meses, pues el coeficiente de la pendiente entre las dos es 0.8992. Esto no debe 
sorprender en vista de la eficiencia de los mercados de dinero de Estados Unidos. 


Resumen y 
conclusiones 


1. El análisis de regresión basado en información de series de tiempo supone implícitamente 
que las series de tiempo en las cuales se basa son estacionarias. Las pruebas clásicas t y F, 
entre otras, se basan en este supuesto. 

2. En la práctica, la mayoría de las series de tiempo económicas son no estacionarias. 

3. Decimos que un proceso estocástico es estacionario débil si su media, varianza y autocova- 
rianzas son constantes en el tiempo (es decir, son invariantes en el tiempo). 

4. En un nivel informal, la estacionariedad débil se prueba mediante el correlograma de una 
serie de tiempo, que es una gráfica de la autocorrelación en diferentes rezagos. Para una serie 
de tiempo estacionaria, el correlograma se desvanece rápidamente, mientras que para las 
series no estacionarias, lo hace de manera gradual. Cuando una serie es puramente aleatoria, 
las autocorrelaciones en todos los rezagos 1 y superiores son cero. 

5. En un nivel formal, la estacionariedad se verifica averiguando si la serie de tiempo contiene 
una raíz unitaria. Las pruebas de Dickey-Fuller (DF) y Dickey-Fuller Aumentada (DFA) 
sirven para este propósito. 

6. Una serie de tiempo económica puede ser estacionaria en tendencia (ET) o estacionaria 
en diferencia (ED). Una serie de tiempo ET tiene tendencia determinista, mientras que una 
serie de tiempo ED tiene tendencia variable o estocástica. La práctica común de incluir la 


42 Como ambas tasas de interés de los pagarés del Tesoro se expresan en forma porcentual, esto indicaría 


que si la tasa de interés de los pagarés del Tesoro a seis meses fuera mayor que la tasa a tres meses, en una 
cantidad mayor que la esperada a priori en el último mes, el siguiente mes ésta se reduciría en 0.19 puntos 
porcentuales a fin de restablecer la relación de largo plazo entre las dos tasas de interés. Para conocer más 
sobre la teoría en la que se basa la relación entre las tasas de interés de corto y largo plazos, consulte cual- 
quier libro de texto sobre banca o dinero y lea sobre la estructura de los plazos de las tasas de interés. 
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variable de tiempo o de tendencia en un modelo de regresión para eliminar la influencia de 
la tendencia en los datos sólo se justifica para series de tiempo ET. Las pruebas DF y DFA se 
aplican para determinar si una serie de tiempo es ET o ED. 

7. La regresión de una variable de serie de tiempo sobre una o más variables de series de tiempo 
a menudo puede dar resultados sin sentido o espurios. Este fenómeno se conoce como regre- 
sión espuria. Una forma de evitarla es establecer si las series de tiempo están cointegradas. 

8. Cointegración significa que, a pesar de no ser estacionarias en un nivel individual, una 
combinación lineal de dos o más series de tiempo puede ser estacionaria. Las pruebas Engle- 
Granger (EG) y Engle-Granger aumentada (EGA) sirven para averiguar si dos o más 
series de tiempo están cointegradas. 

9. La cointegración de dos (o más) series de tiempo indica que existe una relación de largo 
plazo, o de equilibrio, entre ellas. 

10, El mecanismo de corrección de errores (MCE) de Engle y Granger sirve para conciliar el 
comportamiento de corto plazo de una variable económica con su comportamiento de largo 
plazo. 

11. El campo de la econometría de series de tiempo ha evolucionado. Los resultados y pruebas 
establecidas en algunos casos son tentativos y queda aún mucho trabajo pendiente. Una 
pregunta importante, aún pendiente, es por qué algunas series de tiempo económicas son 
estacionarias y otras no lo son. 


EJERCICIOS Preguntas 


21.1. ¿Qué significa estacionariedad débil? 
21.2. ¿Qué significa serie de tiempo integrada? 
21.3. ¿Cuál es el significado de raíz unitaria? 
21.4. Si una serie de tiempo es /(3), ¿cuántas veces debe diferenciarse para hacerla estaciona- 
ria? 
21.5. ¿Qué son las pruebas Dickey-Fuller (DF) y DF aumentada? 
21.6. ¿Qué son las pruebas Engle-Granger (EG) y EG aumentada? 
21.7. ¿Cuál es el significado de cointegración? 
21.8. ¿Cuál es la diferencia, si acaso, entre pruebas de raíz unitaria y pruebas de cointegración? 
21.9. ¿Qué es la regresión espuria? 
21.10. ¿Cuál es la conexión entre cointegración y regresión espuria? 
21.11. ¿Cuál es la diferencia entre una tendencia determinista y una tendencia estocástica? 
21.12. ¿Qué significa proceso estacionario en tendencia (PET) y proceso estacionario en dife- 
rencias (PED)? 
21.13. ¿Qué es una caminata aleatoria (modelo)? 
21.14. “Para un proceso estocástico de caminata aleatoria, la varianza es infinita.” ¿Está de 
acuerdo? ¿Por qué? 
21.15. ¿Qué es el mecanismo de corrección de errores (MCE)? ¿Cuál es su relación con la coin- 
tegración? 


Ejercicios empíricos 

21.16. Con los datos de series de tiempo económicas de Estados Unidos que se presentan en el 
sitio Web del libro, obtenga los correlogramas muestrales hasta 36 rezagos para las series 
de tiempo LGCP, LIPD, LUE (utilidades empresariales) y LDIVIDENDOS. ¿Qué patrón 
general observa? Por intuición, ¿cuáles de estas series parecen estacionarias? 

21.17. Para cada una de las series de tiempo del ejercicio 21.16, utilice la prueba DF para de- 
terminar si estas series contienen una raíz unitaria. Si existe una raíz unitaria, ¿cómo 
caracteriza esa serie de tiempo? 
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21.18. 


21.19. 


21.20. 


2 LL, 


AN Ls 


NAS, 


Continúe con el ejercicio 21.17. ¿Cómo determina si una prueba DFA es más apropiada 
que una prueba DF? 

Considere las series de tiempo de dividendos y utilidades contenidas en los datos sobre la 
economía de Estados Unidos publicados en el sitio Web del libro. Como los dividendos 
dependen de las utilidades, considere el siguiente modelo simple: 


LDIVIDENDOS, = $, + BLUE + u; 


a) ¿Esperaría que esta regresión sufra del fenómeno de regresión espuria? ¿Por qué? 

b) ¿Están cointegradas las series de tiempo de los logaritmos de los dividendos y las 
utilidades? ¿Cómo probar esto explícitamente? Si después de la prueba encuentra que 
están cointegradas, ¿cambiaría la respuesta en a)? 

c) Con el mecanismo de corrección de errores (MCE) estudie el comportamiento de 
corto y largo plazos de los dividendos en relación con las utilidades. 

d) Si examina las series de LDIVIDENDOS y LUE individualmente, ¿presentan tenden- 
cias estocásticas o deterministas? ¿Qué pruebas utiliza? 

*e 


pez 


Suponga que LDIVIDENDOS y LUE están cointegradas. Entonces, en lugar de efec- 
tuar la regresión de los dividendos sobre las utilidades, hace la regresión de las utili- 
dades sobre los dividendos. ¿Es válida tal regresión? 


Obtenga las primeras diferencias de las series de tiempo contenidas en los datos sobre la 
economía de Estados Unidos que se presentan en el sitio Web del libro y grafíquelas. Ob- 
tenga también un correlograma de cada serie de tiempo hasta 36 rezagos. ¿Qué le llama 
la atención sobre estos correlogramas? 

En lugar de efectuar la regresión de LDIVIDENDOS sobre LUE en la forma de nivel, 
suponga que efectúa la regresión de las primeras diferencias de LDIVIDENDOS sobre 
las primeras diferencias de LUE. ¿Incluiría el intercepto en esta regresión? ¿Por qué? 
Muestre los cálculos. 

Continúe con el ejercicio anterior. ¿Cómo probaría la presencia de estacionariedad en la 
regresión de primeras diferencias? En este ejemplo, ¿qué esperaría a priori y por qué? 
Muestre todos los cálculos. 

Con base en el número de nuevas viviendas construidas en el Reino Unido (X) de 1948 a 
1984, Terence Mills obtuvo los siguientes resultados de regresión:* 


A = O- 
se = (12.50) (0.080) 
(t=)7 (2.35) 


Nota: El valor crítico t a 5% es —2.95 y el valor crítico t a 10% es —2.60. 

a) Con base en estos resultados, ¿la serie de tiempo de nuevas construcciones de vivien- 
das es estacionaria o no estacionaria? Por otra parte, ¿hay una raíz unitaria en esta 
serie de tiempo? ¿Cómo sabe? 

b) Si fuera a utilizar la prueba f usual, ¿es el valor £ observado estadísticamente signifi- 
cativo? Con esta base, ¿habría concluido que esta serie de tiempo es estacionaria? 

c) Ahora considere los siguientes resultados de regresión: 


M = AT = OAZ- OSA 
se = (5.06) (0.236) (0.163) 
ee (25.89) 


* Opcional. 


t Terence C. Mills, op. cit., p. 127. La notación se alteró un poco. 


21.24, 


22I 


21.26. 
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donde A? es el operador de segundas diferencias, es decir, primeras diferencias de las pri- 
meras diferencias. El valor estimado es ahora estadísticamente significativo. ¿Qué puede 
decir sobre la estacionariedad de la serie de tiempo en cuestión? 

Nota: El propósito de la regresión anterior es determinar si hay una segunda raíz 
unitaria en la serie de tiempo. 
Genere dos series de caminata aleatoria como se indica en (21.7.1) y (21.7.2) y haga la re- 
gresión de una sobre la otra. Repita este ejercicio pero ahora con sus primeras diferencias 
y verifique que en esta regresión el valor de R? sea casi cero y que la d de Durbin- Watson 
sea casi 2. 
Para mostrar que dos variables, cada una con tendencia determinista, pueden originar 
una regresión espuria, Charemza ef al. obtuvieron la siguiente regresión con base en 30 
observaciones:* 


SO 00N 


t=(9.9) (21.2) 
R?=0.92  d=0.06 


donde Y, =1,Y2=2,...,Y,=nyX =1,%=4,...,X,=*?. 
a) ¿Qué tipo de tendencia muestra Y? ¿y X? 


b) Grafique las dos variables y la línea de regresión. ¿Qué conclusión general obtiene de 
esta gráfica? 


De los datos correspondientes del primer trimestre de 1971 al cuarto de 1988 para Canadá 
se obtuvieron los siguientes resultados de la regresión: 
1. in MI,= —10.2571 + 1.5975 In PIB, 
t = (-12.9422) (25.8865) 
R?=0.9463  d=0.3254 


7, AlnMl,= 0.0095 + 0.5833A 1n PIB; 
t= (2.4957) (1.8958) 


R? = 0.0885 d = 1.7399 


3. Aú,=  —0.1958%;/_1 
(t= 1) (22.2521) 
R2=0.1118 d= 1.4767 


donde M1 = la oferta de dinero M1, PIB = producto interno bruto, ambas medidas en 
miles de millones de dólares canadienses, ln es el logaritmo natural y ú, representa los 
residuos estimados de la regresión 1. 


a) Interprete las regresiones 1 y 2. 

b) ¿Sospecha que la regresión 1 es espuria? ¿Por qué? 

c) ¿La regresión 2 es espuria? ¿Cómo sabe? 

d) De los resultados de la regresión 3, ¿cambiaría su conclusión de b)? ¿Por qué? 


* Charemza et al., op. cit., p. 93. 


772 Parte Cuatro Modelos de ecuaciones simultáneas y econometría de series de tiempo 


e) Ahora considere la siguiente regresión: 


AlnMI,= 0.0084 + 0.7340AInPIB,—  0.0811%,_¡ 
t= (2.0496) (2.0636) (-0.8537) 
R? = 0.1066 d = 1.6697 


¿Qué indica esta regresión? ¿Le ayuda a decidir si la regresión 1 es espuria o no lo es? 


21.27. Las siguientes regresiones se basan en los datos del IPC de Estados Unidos de 1960 a 
2007, para un total de 48 observaciones anuales: 


îl AIPC,= 0.03341PC,_; 

= (12.37) 
R? = 0.0703  d=0.3663 SCR= 206.65 
1.8662 + 0.01921PC,_; 
(3.27) (3.86) 
R?= 0.249  d=0.4462  SCR= 166.921 
3. AIPC,= 1.1611 + 0.5344t—  0.10771PC,_: 

t= (2.37) (4.80) (4.02) 

R2=0.507  d=0.6071  SCR= 109.608 


2, AIPC, 


i 


donde SCR = suma de cuadrados residual. 


a) Al examinar las regresiones anteriores, ¿qué puede decir respecto de la estacionarie- 
dad de la serie de tiempo IPC? 

b) ¿Cómo escogería entre los tres modelos? 

c) La ecuación (1) es la ecuación (3) menos el intercepto y la tendencia. ¿Con qué prueba 
decidiría si las restricciones implícitas del modelo 1 son válidas? (Sugerencia: Utilice 


las pruebas Dickey-Fuller t y F. Use los valores aproximados dados en el apéndice 
D, tabla D.7.) 


21.28. Como indicamos en el texto, puede haber varias rupturas estructurales en el conjunto de 
datos de series de tiempo económicas de Estados Unidos de la sección 21.1. Las variables 
dicótomas son una buena forma de incorporar estos cambios en los datos. 


a) Con variables dicótomas para designar tres periodos diferentes relacionados con los 
embargos petroleros de 1973 y 1979, efectúe una regresión del logaritmo de gasto de 
consumo personal (LGCP) sobre el logaritmo del ingreso personal disponible (LIPD). 
¿Hubo algún cambio en los resultados? ¿Cuál es ahora su decisión sobre la hipótesis 
de raíz unitaria? 


b 


= 


Varios sitios Web presentan los ciclos económicos oficiales que pueden haber afectado 
los datos de series de tiempo económicas de Estados Unidos que analizamos en la 
sección 21.1. Consulte, por ejemplo, http://www.nber.org/cycles/cyclesmain.html. 
Con la información que ahí se encuentra, cree variables dicótomas que indiquen algu- 
nos de los principales ciclos y verifique los resultados de la regresión de LGCP sobre 
LIPD. ¿Hubo algún cambio? 


Capítulo e) e) 


Econometría 
de series de tiempo: 
pronósticos 


En la introducción dijimos que los pronósticos son una parte importante del análisis economé- 
trico, y para algunas personas constituye el área más importante. ¿Cómo se pronostican variables 
económicas como el PIB, inflación, tasas de cambio, precios de acciones, tasas de desempleo y 
miles de otras variables económicas? En este capítulo analizaremos dos métodos para pronosticar 
que han adquirido mucha popularidad: 1) el autorregresivo integrado de promedios móviles 
(ARIMA), conocido como metodología de Box-Jenkins,' y 2) el de vectores autorregresivos 
(VAR). 

En este capítulo también estudiaremos los problemas especiales de pronosticar precios de 
los activos financieros, como los de las acciones y las tasas de cambio. Estos precios de los acti- 
vos se caracterizan por un fenómeno conocido como acumulación de volatilidad, lo que 
significa que existen lapsos en los que muestran amplias variaciones durante prolongados perio- 
dos, seguidos por un intervalo de tranquilidad relativa. Basta observar el índice Dow Jones de 
los últimos tiempos. Los llamados modelos con heteroscedasticidad condicional autorregre- 
siva (ARCH) o modelos con heteroscedasticidad condicional autorregresiva generalizada 
(GARCH) representan la mencionada acumulación de volatilidad. 

El tema de los pronósticos económicos es amplio, por lo que se han escrito libros especiali- 
zados sobre esta materia. El objetivo de este capítulo consiste en proporcionar al lector sólo una 
pequeña muestra de este tema. El lector interesado puede consultar la bibliografía para un estudio 
más profundo. Por fortuna, la mayoría del software moderno para la econometría contiene fáciles 
introducciones a las diversas técnicas que estudiamos aquí. 

El vínculo entre este capítulo y el anterior reside en que los métodos de pronósticos analizados 
antes presuponen que las series de tiempo subyacentes son estacionarias o que pueden convertirse 
en estacionarias mediante transformaciones adecuadas. Conforme avancemos a lo largo de este 
capítulo veremos la utilización de diversos conceptos que presentamos en el capítulo anterior. 


22.1 Enfoques de los pronósticos económicos 


En términos generales, hay cinco enfoques de los pronósticos económicos basados en series de 
tiempo: 1) métodos de suavizamiento exponencial, 2) modelos de regresión uniecuacionales, 
3) modelos de regresión de ecuaciones simultáneas, 4) modelos autorregresivos integrados de 
promedios móviles (ARIMA) y 5) modelos de vectores autorregresivos (VAR). 


1 G.P.E. Box y G.M. Jenkins, Time Series Analysis: Forecasting and Control, edición revisada, Holden Day, 
San Francisco, 1978. 
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Métodos de suavizamiento exponencial? 


En esencia son métodos para ajustar una curva apropiada a datos históricos de una determinada 
serie de tiempo. Existen diversos tipos, como el de suavizamiento exponencial simple, el método 
lineal de Holt y el método de Holt-Winters, así como sus variaciones. Aunque todavía se emplean 
en varias áreas para pronósticos en los negocios y la economía, ahora se complementan (¿o sus- 
tituyen?) por los otros cuatro métodos mencionados. No los analizaremos en este capítulo, pues 
se desvían mucho de la materia. 


Modelos de regresión uniecuacionales 


Dedicamos una parte sustancial de esta obra a los modelos de regresión uniecuacionales. Como 
ejemplo de un modelo de regresión uniecuacional, considere la función de demanda de automó- 
viles. La teoría económica postula que la demanda de automóviles es función de sus precios, 
gasto en publicidad, ingreso del consumidor, tasa de interés (como medida del costo de endeu- 
damiento) y otras variables relevantes (por ejemplo, tamaño de la familia o distancia al trabajo). 
A partir de las series de tiempo estimamos un modelo apropiado de demanda de automóviles 
(lineal, log-lineal o no lineal), el cual sirve para el pronóstico de la demanda en el futuro. Por 
supuesto, como vimos en el capítulo 5, los errores de pronóstico aumentan rápidamente si se va 
demasiado lejos hacia el futuro. 


Modelos de regresión de ecuaciones simultáneas? 


En los capítulos 18, 19 y 20 consideramos los modelos de ecuaciones simultáneas. En su mo- 
mento de apogeo, durante las décadas de 1960 y 1970, los modelos elaborados para describir la 
economía de Estados Unidos basados en ecuaciones simultáneas dominaron el campo de los pro- 
nósticos económicos. Pero más adelante, el encanto por ese tipo de pronósticos terminó debido 
a las crisis del precio del petróleo de 1973 y de 1979 y a la crítica de Lucas.* El argumento de 
esta crítica es que los parámetros estimados de un modelo econométrico dependen de la política 
prevaleciente en el momento en que se estima el modelo y cambian conforme lo hace la política. 
En resumen, los parámetros estimados no son invariantes ante cambios de política. 

Por ejemplo, en octubre de 1979, el Banco de la Reserva Federal cambió su política monetaria 
en forma sustancial. En lugar de fijar metas de tasas de interés, anunció que en adelante super- 
visaría la tasa de crecimiento de la oferta monetaria. Ante un cambio tan relevante, un modelo 
econométrico estimado a partir de información pasada tendría poco valor predictivo con el nuevo 
régimen. En estos tiempos, el interés del Banco de la Reserva Federal pasó de controlar la oferta 
monetaria a controlar la tasa de interés de corto plazo (la tasa de los fondos federales). 


Modelos ARIMA 


La publicación de G. P. E. Box y G. M. Jenkins Time Series Analysis: Forecasting and Con- 
trol, op. cit., marcó el comienzo de una nueva generación de herramientas de pronóstico. Popu- 
larmente conocida como metodología de Box-Jenkins (BJ), pero técnicamente conocida como 
metodología ARIMA, el interés de estos métodos de pronósticos no está en la construcción de 
modelos uniecuacionales o de ecuaciones simultáneas, sino en el análisis de las propiedades pro- 
babilísticas, o estocásticas, de las series de tiempo económicas por sí mismas según la filosofía 


2 Hay una exposición relativamente sencilla de estos métodos en Spyros Makridakis, Steven C. Wheelwright 
y Rob J. Hyndman, Forecasting Methods and Applications, 3a. ed., John Wiley & Sons, Nueva York, 1998. 

3 Para conocer un tratamiento didáctico acerca del uso de modelos de ecuaciones simultáneas en pronós- 
ticos, véase Robert S. Pindyck y Daniel L. Rubinfeld, Econometric Models & Economic Forecasts, McGraw-Hill, 
4a. ed., Nueva York, 1998, parte III. 

4 Robert E. Lucas, “Econometric Policy Evaluation: A Critique”, en Carnegie-Rochester Conference Series, The 
Phillips Curve, North-Holland, Ámsterdam, 1976, pp. 19-46. Este artículo, entre otros, hizo posible que Lucas 
obtuviera el Premio Nobel de Economía. 
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de que los datos hablen por sí mismos. A diferencia de los modelos de regresión, en los cuales Y, 
se explica por las k regresoras X1, X2, X3, . . . , Xk, en los modelos de series de tiempo del tipo BJ, 
Y, se explica por valores pasados o rezagados de sí misma y por los términos de error estocásti- 
cos. Por esta razón, los modelos ARIMA reciben algunas veces el nombre de modelos ateóricos 
—porque no se derivan de teoría económica alguna—, y las teorías económicas a menudo son la 
base de los modelos de ecuaciones simultáneas. 

A propósito, observe que en este capítulo la atención se centra en los modelos ARIMA univa- 
riados, es decir, en los modelos ARIMA que pertenecen a una sola serie de tiempo. No obstante, 
el análisis puede extenderse a modelos ARIMA multivariados. 


Modelos VAR 


A primera vista, la metodología VAR se asemeja a los modelos de ecuaciones simultáneas, pues 
considera diversas variables endógenas de manera conjunta. Pero cada variable endógena se ex- 
plica por sus valores rezagados, o pasados, y por los valores rezagados de todas las demás varia- 
bles endógenas en el modelo; usualmente no hay variables exógenas en el modelo. 

En lo restante de este capítulo analizaremos las bases de los enfoques de Box-Jenkins y VAR 
para los pronósticos económicos. El análisis es elemental y heurístico. Se aconseja al lector que 
desee continuar el estudio de este tema consultar las referencias.* 


22.2 Creación de modelos AR, PM y ARIMA para series de tiempo 


Para presentar diversas ideas, antiguas y nuevas, aquí trabajaremos con la serie de tiempo del 
PIB de Estados Unidos de la sección 21.1 (consulte los datos reales en el sitio Web del libro). La 
gráfica de dicha serie de tiempo ya se ilustró en las figuras 21.1 (logaritmo del PIB no diferen- 
ciado) y 21.9 (LPIB en primeras diferencias); recuerde que el LPIB en su forma de nivel es no 
estacionario, pero en su forma de (primeras) diferencias sí lo es. 

Si una serie de tiempo es estacionaria, se puede modelar en diversas formas. 


Proceso autorregresivo (AR) 
Sea Y, el logaritmo del PIB en el periodo f. Si se modela Y, como 


(Y, — 8) = æi(Y;, -1 — 8) + u; (22.2.1) 


donde ô es la media de Y y u; es un término de error aleatorio no correlacionado con media cero 
y varianza constante o? (es decir, ruido blanco), se dice que Y, sigue un proceso estocástico au- 
torregresivo de primer orden, o AR(1), del cual ya hablamos en el capítulo 12. Aquí el valor de 
Y en el tiempo £ depende de su valor en el periodo anterior y de un término aleatorio; los valores 
de Y están expresados como desviaciones de su valor medio. En otras palabras, este modelo dice 
que el valor de pronóstico de Y en el periodo £ es simplemente alguna proporción (= «¡) de su 
valor en el periodo (+ — 1) más un “choque” o perturbación aleatoria en el tiempo t; de nuevo, los 
valores de Y están expresados alrededor del valor de su media. 
Pero si consideramos este modelo, 


(Y, — 8) = 01(Y,-1 — ô) + 03(Y,-2 — ô) + ur (22.2.2) 


5 Véase Pindyck y Rubinfeld, op. cit., parte 3; Alan Pankratz, Forecasting with Dynamic Regression Models, John 
Wiley & Sons, Nueva York, 1991 (libro con aplicaciones); y Andrew Harvey, The Econometric Analysis of Time 
Series, The MIT Press, 2a. ed., Cambridge, Massachusetts, 1990 (libro relativamente avanzado). Un análisis 
completo pero fácil de entender se encuentra en Terence C. Mills, Time Series Techniques for Economists, 
Cambridge University Press, Nueva York, 1990. 
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decimos que Y, sigue un proceso autorregresivo de segundo orden o AR(2). Es decir, el 
valor de Y en el tiempo £ depende de sus valores en los dos periodos anteriores, los valores de Y 
expresados alrededor del valor de su media ô. 

En general, tenemos 


(F, = )= uña ==) a y i (22.2.3) 


en cuyo caso Y, es un proceso autorregresivo de orden p, o AR(p). 

Observe que en todos los modelos anteriores sólo se consideran los valores actuales y anterio- 
res de Y; no hay otras regresoras. En este sentido, decimos que “los datos hablan por sí mismos”. 
Son una clase de modelos de forma reducida a los cuales hicimos referencia en el análisis de los 
modelos de ecuaciones simultáneas. 


Proceso de medias móviles (MA) 


El proceso AR recién expuesto no es el único mecanismo que pudo generar a Y. Suponga que 
hacemos un modelo de Y de la siguiente manera: 


Y, = u + Bou, + Piu- (22.2.4) 


donde u es una constante y u, al igual que antes, es el término de error estocástico de ruido 
blanco. Aquí, Y en el periodo ź es igual a una constante más un promedio móvil de los términos de 
error presente y pasado. Así, en este caso decimos que Y sigue un proceso de promedios móviles 
de primer orden, o MA(1). 

Pero si Y sigue la expresión 


Y, = u + Bou, + Piu- + B2U1-2 (22.2.5) 
es un proceso MA(2). En forma más general, 
Y, = u + Bou, + Bju-1 + Bo 2 + cc + Pauta (22.2.6) 


es un proceso MA(q). En resumen, un proceso de promedios móviles es tan sólo una combina- 
ción lineal de términos de error de ruido blanco. 


Proceso autorregresivo y de promedios móviles (ARMA) 


Desde luego, es muy probable que Y tenga características de AR y de MA a la vez, y, por consi- 
guiente, sea ARMA. Así, Y, sigue un proceso ARMA(1, 1) si se escribe como 


Y, = 0 + 1 Y;—1 + Bou, + iut- (22.2.7) 


porque hay un término autorregresivo y uno de promedios móviles. En (22.2.7), 0 representa un 
término constante. 

En general, en un proceso ARMA(p, q), habrá p términos autorregresivos y q términos de 
promedios móviles. 


Proceso autorregresivo integrado de promedios móviles (ARIMA) 


Los modelos de series de tiempo analizados se basan en el supuesto de que las series de tiempo 
consideradas son (débilmente) estacionarias en el sentido definido en el capítulo 21. En pocas 
palabras, la media y la varianza de una serie de tiempo débilmente estacionaria son constantes y 
su covarianza es invariante en el tiempo. Pero sabemos que muchas series de tiempo económicas 
son no estacionarias, es decir, son integradas; por ejemplo, las series de tiempo económicas en la 
tabla 21.1 son integradas. 

Sin embargo, vimos también en el capítulo 21 que si una serie de tiempo es integrada de orden 
1 [es decir, si es /(1)], sus primeras diferencias son /(0), es decir, estacionarias. En forma similar, 
si una serie de tiempo es /(2), sus segundas diferencias son /(0). En general, si una serie de tiempo 
es [(d), después de diferenciarla d veces se obtiene una serie /(0). 
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Por consiguiente, si debemos diferenciar una serie de tiempo d veces para hacerla estacionaria 
y luego aplicarle el modelo ARMA(p,q), decimos que la serie de tiempo original es ARIMA(p, 
d, q), es decir, es una serie de tiempo autorregresiva integrada de promedios móviles, donde 
p denota el número de términos autorregresivos, d el número de veces que la serie debe diferen- 
ciarse para hacerse estacionaria y q el número de términos de promedios móviles. Así, una serie 
de tiempo ARIMA(Q, 1, 2) tiene que diferenciarse una vez (d = 1) antes de que se haga esta- 
cionaria, y la serie de tiempo estacionaria (en primeras diferencias) puede modelarse como un 
proceso ARMA(?2, 2), es decir, tiene dos términos AR y dos términos MA. Desde luego, si d = 0 
(es decir, si para empezar la serie es estacionaria), ARIMA(p, d = 0, q) = ARMA (p, q). Observe 
que un proceso ARIMA(p, 0, 0) significa un proceso estacionario AR(p) puro; un ARIMA (0, 
0, q) significa un proceso estacionario MA(g) puro. Con los valores de p, d y q sabemos de qué 
proceso se está haciendo el modelo. 

El punto importante es que, para utilizar la metodología Box-Jenkins, debemos tener una serie 
de tiempo estacionaria o una serie de tiempo que sea estacionaria después de una o más diferen- 
ciaciones. La razón para suponer estacionariedad se explica de la siguiente manera: 


El objetivo de BJ [Box-Jenkins] es identificar y estimar un modelo estadístico que se interprete como 
generador de los datos muestrales. Entonces, si se va a pronosticar con este modelo estimado, debe 
suponerse que sus características son constantes a través del tiempo y, en particular, en periodos 
futuros. Así, la sencilla razón para requerir datos estacionarios es que todo modelo que se infiera a 
partir de estos datos pueda interpretarse como estacionario o estable en sí mismo, y proporcione, por 
consiguiente, una base válida para pronosticar. 


22.3 Metodología de Box-Jenkins (BJ) 


La pregunta del millón de dólares es obvia: al ver una serie de tiempo, como la serie del PIB de 
Estados Unidos en la figura 21.1, ¿cómo sabemos si sigue un proceso AR puro (de ser así, cuál 
es el valor de p), un proceso MA puro (de ser así, cuál es el valor de q), un proceso ARMA (de 
ser así, cuáles son los valores de p y q) o un proceso ARIMA, en cuyo caso se deben conocer los 
valores de p, d y q? La metodología BJ resulta útil para responder la pregunta anterior. El método 
considera cuatro pasos: 


Paso 1. Identificación. Es decir, encontrar los valores apropiados de p, d y q. En seguida 
veremos la forma como el correlograma y el correlograma parcial ayudan en esta labor. 


Paso 2. Estimación. Tras identificar los valores apropiados de p y q, la siguiente etapa es 
estimar los parámetros de los términos autorregresivos y de promedios móviles incluidos en 
el modelo. Algunas veces, este cálculo se efectúa mediante mínimos cuadrados simples, pero 
otras hay que recurrir a métodos de estimación no lineal (en parámetros). Como esta labor se 
lleva a cabo ahora a través de rutinas en diversos paquetes estadísticos, en la práctica no es 
preciso preocuparse por los desarrollos matemáticos de la estimación; el estudiante intere- 
sado en el tema puede consultar las referencias. 


Paso 3. Examen de diagnóstico. Después de seleccionar un modelo ARIMA particular y 
de estimar sus parámetros, tratamos de ver si el modelo seleccionado se ajusta a los datos en 
forma razonablemente buena, pues es posible que exista otro modelo ARIMA que también 
lo haga. Es por esto que el diseño de modelos ARIMA de Box-Jenkins es un arte más que 
una ciencia; se requiere gran habilidad para seleccionar el modelo ARIMA correcto. Una 
simple prueba del modelo seleccionado es ver si los residuales estimados a partir de este 
modelo son de ruido blanco; si lo son, aceptamos el ajuste particular; si no lo son, debemos 
empezar de nuevo. Por tanto, la metodología BJ es un proceso iterativo (figura 22.1). 


$ Michael Pokorny, An Introduction to Econometrics, Basil Blackwell, Nueva York, 1987, p. 343. 
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FIGURA 22.1 
Metodología de 
Box-Jenkins. 


1. Identificación del modelo 
(selección tentativa de p, d, q) 


2. Estimación de parámetros 
del método elegido 


3. Examen de diagnóstico: 
¿Los residuos estimados son de ruido blanco? 


Sí No 
(ir al paso 4) | l (regresar al paso 1) 


4. Pronóstico 


Paso 4. Pronóstico. Una razón de la popularidad del proceso de construcción de modelos 
ARIMA es su éxito en el pronóstico. En muchos casos, los pronósticos obtenidos por este 
método son más confiables que los obtenidos de modelos econométricos tradicionales, en 
particular en el caso de pronósticos de corto plazo. Por supuesto, cada caso debe verificarse. 


Luego de esta exposición general, examinaremos los cuatro pasos con cierto detalle. Durante 
el análisis utilizaremos los datos del PIB de la sección 21.1 para ilustrar los diversos puntos. 


22.4 Identificación 


Las herramientas principales en la identificación son la función de autocorrelación (FAC), la 
función de autocorrelación parcial (FACP) y los correlogramas resultantes, que son simple- 
mente los gráficos de FAC y de FACP respecto de la longitud del rezago. 

En el capítulo anterior definimos la FAC py (poblacional) y la FAC ô; (muestral). El concepto 
de autocorrelación parcial es análogo al concepto de coeficiente de regresión parcial. En el mo- 
delo de regresión múltiple con k variables, el k-ésimo coeficiente de regresión fB, mide la tasa de 
cambio en el valor medio de la variable regresada ante un cambio unitario en la k-ésima regresora 
Xy, para mantener constante la influencia de todas las demás regresoras. 

En forma similar, la autocorrelación parcial px; mide la correlación entre observaciones 
(series de tiempo) separadas k periodos y mantiene constantes las correlaciones en los rezagos 
intermedios (es decir, rezagos menores de k). En otras palabras, la autocorrelación parcial es la 
correlación entre Y, y Y, después de eliminar el efecto de las Y intermedias.” En la sección 7.11 
presentamos el concepto de correlación parcial en el contexto de regresión y vimos su relación 
con las correlaciones simples. Tales correlaciones parciales se calculan ahora mediante rutinas en 
la mayoría de los paquetes estadísticos. 

En la figura 22.2 presentamos el correlograma y el correlograma parcial de la serie LPIB. En 
esta figura sobresalen dos hechos: primero, la FAC decrece muy lentamente; como se ve en la 
figura 21.8, la FAC hasta el rezago 23 es estadísticamente diferente de cero en un nivel individual, 
pues todas están fuera de los límites a 95% de confianza. Segundo, después del primer rezago, la 
FACP decrece en forma considerable y todas las FACP, después del primer rezago, son estadísti- 
camente no significativas, salvo quizá por el rezago 13. 


7 En los datos de series de tiempo, una gran proporción de la correlación entre Y, y Y, ; puede deberse a sus 
correlaciones con los rezagos intermedios Y;_1, Y;_2,..., Yi-x+1. La correlación parcial pix elimina la influencia 
de estas variables intermedias. 
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FIGURA 22.2 1.00 
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Rezago 
Bandas de confianza a 95% [ee = 1/raíz cuadrada de (n)]. 


b) 


Como la serie de tiempo LPIB de Estados Unidos es no estacionaria, debemos convertirla en 
estacionaria antes de aplicar la metodología de Box-Jenkins. En la figura 21.9 graficamos la serie 
de primeras diferencias del LPIB. En contraste con la figura 21.1, no se observa ninguna tenden- 
cia en esta serie, lo que sugiere que quizá la serie de tiempo del LPIB en primeras diferencias es 
estacionaria.? Una aplicación formal de la prueba de raíz unitaria de Dickey-Fuller muestra 
que así sucede, en efecto. Lo anterior también se visualiza mediante los correlogramas FAC y 
FACP estimados en los paneles a) y b) de la figura 22.3. Ahora tenemos un patrón muy diferente 
de FAC y de FACP. Las FACs en los rezagos 1, 2 y 5 parecen estadísticamente diferentes de cero; 
recuerde, del capítulo 21, que los límites de confianza aproximados a 95% para p son —0.2089 
y +0.2089. (Nota: Como analizamos en el capítulo 21, estos límites de confianza son asintóticos 


8 Es difícil decir si la varianza de esta serie es estacionaria, en especial alrededor de 1979-1980. El embargo 
petrolero de 1979 y un cambio significativo en la política monetaria del Banco de la Reserva Federal en el 
mismo año pueden tener algo que ver con esta dificultad. 
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FIGURA 22.3 

a) Correlograma y 

b) correlograma parcial de 
las primeras diferencias 
de LPIB, Estados Unidos, 
1-1947 a IV-2007. 
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y, por tanto, se consideran aproximados.) Pero, en todos los demás rezagos, no son estadística- 
mente diferentes de cero. Para las autocorrelaciones parciales, sólo los rezagos 1 y 12 parecen 
estadísticamente diferentes de cero. 

Ahora, ¿cómo permiten los correlogramas de la figura 22.3 encontrar el patrón ARMA de la 
serie de tiempo del PIB? (Nota: Sólo consideraremos la serie del PIB en primeras diferencias 
por ser estacionaria.) Una forma de lograrlo es considerar la FAC y la FACP, y los correlogramas 
asociados de un número seleccionado de procesos ARMA, como AR(1), AR(2), MA(1), MA(2), 
ARMA(1,1), ARIMA (2,2), y así sucesivamente. Como cada proceso estocástico presenta pa- 
trones habituales de FAC y de FACP, si la serie de tiempo en estudio se ajusta a alguno de estos 
patrones, la podemos identificar con tal proceso. Desde luego, será necesario aplicar pruebas de 
diagnóstico para determinar si el modelo seleccionado ARMA es razonablemente preciso. 

El estudio de las propiedades de los diversos procesos estándar ARIMA consumiría mucho es- 
pacio. En su lugar, ofrecemos lineamientos generales (tabla 22.1); en las referencias hay detalles 
de los diversos procesos estocásticos. 


TABLA 22.1 
Patrones teóricos de 
FAC y FACP 
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Tipo de modelo Patrón típico de FAC Patrón típico de FACP 
AR(p) Disminuye exponencialmente o Picos significativos en los 
con un patrón de onda sinusoide rezagos q 
achatada o ambos. 
MA(g) Picos significativos en los rezagos q Decrece exponencialmente 
ARMA(p, q) Decrece exponencialmente Decrece exponencialmente 


Nota: Los términos decrecimiento exponencial y decrecimiento geométrico significan lo mismo (recuerde el análisis sobre el rezago 
distribuido de Koyck). 


FIGURA 22.4 FAC y FACP de procesos estocásticos seleccionados: a) AR(2): a, = 0.5, œ = 0.3; b) MA(2): Bı = 0.5, 62 = 0.3; 
c) ARMA(1,1): œi = 0.5, B1=0.5. 
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Observe que las FAC y las FACP de los procesos AR(p) y MA(q) tienen patrones opuestos; en 
el caso AR(p), la FAC decrece geométrica o exponencialmente, pero la FACP se corta después de 
cierto número de rezagos, mientras que sucede lo opuesto a un proceso MA(g). 

Geométricamente, estos patrones se muestran en la figura 22.4. 


Advertencia 


Como en la práctica no se observan las FAC y FACP teóricas y se depende, por tanto, de sus 
aproximaciones muestrales, las FAC y FACP estimadas no concordarán exactamente con sus 
contrapartes teóricas. Buscamos una similitud entre las FAC y las FACP teóricas y muestrales de 
manera que señalen la dirección correcta en la construcción de los modelos ARIMA. Es por esto 
que la elaboración de modelos ARIMA requiere gran habilidad, lo cual, desde luego, se obtiene 
con la práctica. 


Identificación ARIMA del PIB de Estados Unidos 
Al considerar de nuevo el correlograma y el correlograma parcial de LPIB estacionario (después 
de la primera diferenciación) de Estados Unidos de 1-1947 a IV-2007 de la figura 22.3, ¿qué 
observamos? 

Recordemos que la FAC y la FACP son cantidades muestrales, y no tenemos un patrón decente 
como los propuestos en la tabla 22.1. Las autocorrelaciones (panel a) decrecen en los primeros 
dos rezagos y luego, con excepción del rezago 5, los restantes no son estadísticamente diferentes 
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de cero (el área gris en las figuras da los límites de confianza aproximados a 95%). Las autoco- 
rrelaciones parciales (panel b) con picos en los rezagos 1 y 12 parecen estadísticamente signi- 
ficativas, pero el resto no; si el coeficiente de correlación parcial fuera significativo solamente 
en el rezago 1, podríamos haberlo identificado como un modelo AR(1). Supongamos por tanto 
que el proceso que generó la serie LPIB (en primeras diferencias) es un proceso MA(2). Tenga 
en cuenta que, a menos que la FAC y la FACP no estén bien definidas, será difícil elegir un mo- 
delo sin ensayo y error. Se invita al lector a probar otros modelos ARIMA con la serie LPIB en 
primeras diferencias. 


22.5 Estimación del modelo ARIMA 


Sea Y? las primeras diferencias del logaritmo del PIB de Estados Unidos. Entonces, el modelo 
MA identificado tentativamente es 


Y? = u + Bius-1 + Bau1-2 (22.5.1) 
Con MINITAB obtuvimos las siguientes estimaciones: 
Y* = 0.00822 + 0.2918u,_¡ + 0.2024u,_> 
ee = (0.00088) (0.0633) (0.0634) 


t = (9.32) (4.61) (3.20) 
R? = 0.1217 d = 1.9705 


(22.5.2) 


Dejamos como ejercicio al lector estimar otros modelos ARIMA para la serie LPIB en primeras 
diferencias. 


22.6 Verificación de diagnóstico 


¿Cómo sabemos que el modelo en (22.5.2) es un ajuste razonable a los datos? Un diagnóstico 
simple es obtener los residuos de (22.5.2) y obtener la FAC y la FACP de estos residuos, por 
ejemplo, hasta el rezago 25. Las FAC y FACP estimadas se muestran en la figura 22.5. Como 
vemos en esta figura, ninguna de las autocorrelaciones y de las autocorrelaciones parciales es 
estadísticamente significativa de manera individual. Tampoco lo es la suma de las 25 autocorrela- 
ciones elevadas al cuadrado, como indican los estadísticos Q de Box-Pierce y LB de Ljung-Box 
(véase el capitulo 21). En otras palabras, los correlogramas de la autocorrelación y de la auto- 
correlación parcial dan la impresión de que los residuos estimados de (22.5.2) son puramente 
aleatorios. Por tanto, quizá no sea necesario buscar otro modelo ARIMA. 


22.7 Pronóstico 


Recuerde que los datos del PIB son para el periodo 1-1947 a IV-2007. Suponga, con base en el 
modelo (22.5.2), que deseamos pronosticar el LPIB para el primero de los cuatro trimestres de 
2008. Pero, en (22.5.2), la variable dependiente es el cambio en el LPIB en el trimestre anterior. 
Por consiguiente, si utilizamos (22.5.2), lo que obtenemos son los pronósticos de los cambios en 
el LPIB entre el primer trimestre de 2008 y el cuarto trimestre de 2007, el segundo trimestre de 
2008 y el primer trimestre de 2008, etcétera. 

Para obtener el pronóstico de nivel del LPIB en lugar de sus cambios, podemos “deshacer” 
la transformación de primeras diferencias con que obtuvimos los cambios. (Más técnicamente, 
integramos la serie de primeras diferencias.) Así, para obtener el valor de pronóstico del LPIB 
(no de APIB) para I-2008, reescribimos el modelo (22.5.1) como 


Y2008-1 — Y2007-1v = H + Biu2oo71v + B242007-1 + U2008-1 (22.7.1) 


FIGURA 22.5 

a) Correlograma y 

b) correlograma parcial de 
los residuos del modelo 
MA(2) para las primeras 
diferencias de LPIB, Es- 
tados Unidos, 1947-I a 
2007-IV. 
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b) 


Es decir, 


Y2008-1 = u + Brt2007-1v + 2u2007-m1 + 42008-1 + Y2007-1v (22.7.2) 


Los valores de u, 61 y f2 ya se conocen de la regresión estimada (22.5.2). Se supone que el valor 
de u2008-1 es cero (¿por qué?). Por consiguiente, obtenemos fácilmente el valor de pronóstico de 
Yo00s.1- La estimación numérica de este valor de pronóstico es:? 


Y200s-1 = 0.00822 + (0.2918)u2007-1v + (0.2024)(42007-10) + Y2007-1v 
= 0.00822 + (0.2918)(0.00853) + (0.2024)(—0.00399) + 9.3653 
= 9.374 1(aprox.) 


? Aunque los paquetes de software comunes y corrientes hacen este cálculo habitualmente, presentamos los 
cálculos detallados para ilustrar el procedimiento. 
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Así, el valor de pronóstico de LPIB para 1-2008 es de alrededor de 9.3741, que equivale a unos 
11 779 millones de dólares (de 2000). A propósito, el valor observado del PIB real para 1-2008 
fue de 11 693.09 millones de dólares; el error de pronóstico fue una sobreestimación de 86 000 
millones de dólares. 


22.8 Otros aspectos de la metodología BJ 


22.9 Vectores 


En los párrafos anteriores presentamos sólo una introducción general al diseño de modelos BJ. 
Hay muchos aspectos de esta metodología no considerados por falta de espacio, como la estacio- 
nalidad. Muchas series de tiempo presentan un comportamiento estacional, como las ventas de 
tiendas departamentales en días festivos, el consumo estacional de helado, los viajes durante días 
festivos nacionales, etc. S1, por ejemplo, disponemos de la información trimestral de ventas de las 
tiendas departamentales, estas cifras mostrarán picos en el cuarto trimestre. En tales situaciones, 
es posible eliminar la influencia estacional al tomar diferencias trimestrales de orden cuatro de 
las cifras de ventas y luego decidir qué clase de modelo ARIMA ajustar. 

Analizamos una serie de tiempo a la vez; sin embargo, nada impide extender la metodología 
BJ al estudio simultáneo de dos o más series de tiempo. Una revisión de tal tema se saldría del 
alcance de este libro. El lector interesado puede consultar las referencias.'? No obstante, en la 
siguiente sección analizaremos este tema en el contexto de lo que se conoce como vectores au- 
torregresivos. 


autorregresivos (VAR) 


De los capítulos 18 a 20 consideramos los modelos de ecuaciones simultáneas o estructurales. En 
esos modelos, algunas variables se tratan como endógenas y otras como exógenas o predetermi- 
nadas (exógenas y endógenas rezagadas). Antes de estimar tales modelos debemos estar seguros 
de que las ecuaciones en el sistema estén identificadas (en forma exacta o sobreidentificadas). 
Esta identificación a menudo se logra si suponemos que algunas variables predeterminadas sólo 
están presentes en ciertas ecuaciones. Esta decisión a menudo es subjetiva y ha recibido fuertes 
críticas de Christopher Sims.'! 

De acuerdo con Sims, si hay verdadera simultaneidad entre un conjunto de variables, todas 
deben tratarse en igualdad de condiciones: no debe haber ninguna distinción a priori entre varia- 
bles endógenas y exógenas. Es en este contexto que Sims desarrolló su modelo VAR. 

Las semillas de este modelo se habían sembrado ya en la prueba de causalidad de Granger, 
estudiada en el capítulo 17. En las ecuaciones (17.14.1) y (17.14.2), que explican el LPIB actual 
en términos de la oferta monetaria rezagada y del PIB rezagado, y la oferta monetaria actual en 
términos de la oferta monetaria rezagada y del LPIB rezagado, tratamos esencialmente al PIB 
y a la oferta monetaria como un par de variables endógenas. No hay variables exógenas en este 
sistema. 

De igual forma, en el ejemplo 17.13 analizamos la naturaleza de la causalidad entre dinero 
y tasa de interés en Canadá. En la ecuación del dinero, sólo aparecen los valores rezagados del 
dinero y de la tasa de interés; asimismo, en la ecuación de la tasa de interés, únicamente se pre- 
sentan los valores rezagados de la tasa de interés y del dinero. 

Estos dos ejemplos son ilustraciones de modelos de vectores autorregresivos; el término 
“autorregresivo” se refiere a la aparición del valor rezagado de la variable dependiente en el lado 
derecho, y el término “vector” se atribuye a que tratamos con un vector de dos (o más) variables. 


10 Para un tratamiento fácil de entender sobre este tema, véase Terence C. Mills, op. cit., parte III. 
11 C.A. Sims, “Macroeconomics and Reality”, en Econometrica, vol. 48, 1980, pp. 1-48. 
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Estimación de VAR 


De vuelta con el ejemplo del dinero y la tasa de interés para Canadá, vimos que, cuando intro- 
dujimos seis rezagos de cada variable como regresoras, no pudimos rechazar la hipótesis de que 
existía una causalidad bilateral entre el dinero (Mı) y la tasa de interés R (tasa de interés corpora- 
tiva a 90 días). Es decir, Mı afecta a R y ésta a su vez influye en M¡. Este tipo de situaciones son 
ideales para aplicar el método VAR. 

A fin de explicar cómo se estima VAR, continuaremos con el ejemplo anterior. Por el mo- 
mento, suponga que cada ecuación contiene k valores rezagados de M (como se mide M1) y R. En 
este caso, estimamos cada una de las siguientes ecuaciones mediante MCO.'? 


k k 
My =a +Y Mij +Y Rio + Un (22.9.1) 
j=1 j=l 
k k 
R= +Y GM; + Y y Rio; + un (22.9.2) 
j=l j=l 
donde las u son los términos de error estocástico, llamados impulsos, innovaciones o choques 


en el lenguaje de VAR. 

Antes de calcular (22.9.1) y (22.9.2) tenemos que decidir la longitud máxima del rezago k. 
Esto significa una cuestión empírica. Se tienen 40 observaciones en total. La inclusión de mu- 
chos términos rezagados consumirá muchos grados de libertad, para no mencionar la posible 
aparición de la multicolinealidad. Agregar muy pocos rezagos provoca errores de especificación. 
Una forma de decidir esta cuestión es utilizar criterios como el de Akaike o el de Schwarz, para 
después elegir el modelo que proporcione los valores más bajos de dichos criterios. En definitiva, 
no podemos evitar cierto grado de ensayo y error. 

Con el objeto de ilustrar el procedimiento, al principio utilizamos cuatro rezagos (k = 4) de 
cada variable y mediante el programa EViews 6 obtuvimos las estimaciones de los parámetros 
de las dos ecuaciones anteriores, los cuales se proporcionan en la tabla 22.2. Observe que, a 
pesar de que la muestra abarca desde el primer trimestre de 1979 hasta el cuarto de 1988, utili- 
zamos la muestra para el periodo comprendido entre el primer trimestre de 1980 y el cuarto de 
1987, y conservamos las últimas cuatro observaciones para verificar la precisión del pronóstico 
del VAR ajustado. 

En vista de que las ecuaciones anteriores son regresiones de MCO, el resultado de la regresión 
de la tabla 22.2 debe interpretarse de la manera usual. Por supuesto, con diversos rezagos de las 
mismas variables, cada coeficiente estimado no será estadísticamente significativo, quizá debido 
a la multicolinealidad. Pero en forma colectiva, quizá sean significativos respecto de la prueba 
F estándar. 

Examinemos los resultados mostrados en la tabla 22.2. Primero consideramos la regresión 
Mı. En forma individual, sólo Mı en el rezago 1, y R, en los rezagos 1 y 2, son estadísticamente 
significativos. Pero el valor F es tan alto que no podemos rechazar la hipótesis de que de manera 
colectiva todos los términos de rezago son estadísticamente significativos. Al concentrar la aten- 
ción sobre la regresión de la tasa de interés, observamos que los cuatro rezagos de los términos 
monetarios son estadísticamente significativos considerados de modo individual (en un nivel 
de 10% o superior), en tanto que sólo la variable de la tasa de interés con rezago de un periodo 
resulta significativa. 

Para propósitos comparativos, en la tabla 22.3 se presentan los resultados VAR basados en 
sólo dos rezagos de cada variable endógena. Aquí apreciará que, en la regresión sobre el dinero, 
la variable dinero con rezago de un periodo y los términos de la tasa de interés rezagada son 


12 Se puede utilizar la técnica SURE (seemingly unrelated regression) para estimar las dos ecuaciones de ma- 
nera simultánea. No obstante, como cada regresión contiene el mismo número de variables endógenas 
rezagadas, la estimación por MCO de cada ecuación por separado suministra estimaciones idénticas (y efi- 
cientes). 
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TABLA 22.2 
Estimaciones de vectores 
autorregresivos con base 
en cuatro rezagos 


Muestra (ajustada): primer trimestre de 1980 a cuarto trimestre de 1987 
Observaciones incluidas: 32 después de ajustar los extremos 
Los errores estándar están entre paréntesis y el estadístico t entre corchetes 


Mı R 
M ED 1.076737 (0.20174) [5.33733] 0.001282 (0.00067) [1.90083] 
M; (22) 0.173433 (0.31444) [0.55157] —0.002140 (0.00105) [-2.03584] 
M; (3) —0.366465 (0.34687) [-1.05648] 0.002176 (0.00116) [1.87699] 
M; (44) 0.077602 (0.20789) [0.37329] -0.001479 (0.00069) [-2.12855] 
R (-1) -275.0293 (57.2174) [-4.80675] 1.139310 (0.19127) [5.95670] 
R (22) 227.1750 (95.3947) [2.38142] -0.309053 (0.31888) [-0.96917] 
R (-3) 8.511851 (96.9176) [0.08783] 0.052361 (0.32397) [0.16162] 
R (24) -50.19926 (64.7554) [-0.77521] 0.001076 (0.21646) [0.00497] 
C 2 413.827 (1 622.65) [1.48759] 4.919000 (5.42416) [0.90687] 
R2 0.988154 0.852890 
R? ajustada 0.984034 0.801721 
Suma de cuadrados residual 4 820 241. 53.86233 
Ecuación del ee 457.7944 1.530307 
Estadístico F 239.8315 16.66815 
Log verosimilitud -236.1676 -53.73716 
Akaike A/C 15.32298 3.921073 
Schwarz SC 15.73521 4.333311 
Media de la variable dependiente 28 514.53 11.67292 
DE de la variable dependiente 3 623.058 3.436688 
Determinante de covarianza residual 490 782.3 
Log verosimilitud (gl ajustados) -300.4722 
Criterio de información de Akaike 19.90451 
Criterio de Schwarz 20.72899 


estadísticamente significativos en lo individual. En la regresión sobre la tasa de interés, los térmi- 
nos dinero rezagado (en casi un nivel de 5%) e interés rezagado resultan individualmente 
significativos. 

Si tenemos que hacer una elección entre el modelo de la tabla 22.2 y el de la 22.3, ¿cuál esco- 
gería? Los valores de información Akaike y Schwarz para el modelo de la tabla 22.2 son 15.32 
y 15.73, respectivamente, en tanto que los correspondientes a la tabla 22.3 son 15.10 y 15.33. 
Como mientras más bajos sean los valores de los estadísticos Akaike y Schwarz mejor será el 
modelo, parece preferible el modelo más parco de la tabla 22.3. También consideramos seis 
rezagos de cada variable endógena y descubrimos que los valores de los estadísticos Akaike y 
Schwarz fueron de 15.37 y 15.98, respectivamente. De nuevo, la elección parece el modelo con 
dos términos rezagados de cada variable endógena, es decir, el modelo de la tabla 22.3. 


Pronóstico con el modelo VAR 

Suponga que elegimos el modelo de la tabla 22.3 para predecir los valores de Mı y R. Recuerde 
que los datos abarcan el periodo del primer trimestre de 1979 al cuarto de 1988, pero no utiliza- 
mos los valores para 1988 al estimar los modelos VAR. Ahora suponga que deseamos pronosticar 
el valor de M; para I-1988, es decir, el primer trimestre de 1988. Obtenemos el valor pronosticado 
para 1-1988 de la siguiente forma: 


Maior 1= 1 451.977 + 1.0375 Miog7-1y = 0.0446 Mi580m 
— 234.8850 R1987-1v + 160.1560 R198711 


TABLA 22.3 
Estimaciones de vectores 
autorregresivos con base 
en dos rezagos 
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Muestra (ajustada): tercer trimestre de 1979 al cuarto trimestre de 1987 
Observaciones incluidas: 34 después de ajustar los extremos 
Los errores estándar están entre paréntesis y el estadístico t entre corchetes 


Mı R 
M El) 1.037537 (0.16048) [6.46509] 0.001091 (0.00059) [1.85825] 
M; (22) —-0.044661 (0.15591) [-0.28646] -0.001255 (0.00057) [-2.19871] 
R (21) -234.8850 (45.5224) [-5.15977] 1.069081 (0.16660) [6.41708] 
R (22) 160.1560 (48.5283) [3.30026] -0.223364 (0.17760) [-1.25768] 
€ 1 451.977 (1 185.59) [1.22468] 5.796434 (4.33894) [1.33591] 
R2 0.988198 0.806660 
R? ajustada 0.986571 0.779993 
Suma de cuadrados residual 5 373 510. 71.97054 
Ecuación del ee 430.4573 1.575355 
Estadístico F 607.0720 30.24878 
Log verosimilitud -251.7446 -60.99215 
Akaike A/C 15.10263 3.881891 
Schwarz SC 15.32709 4.106356 
Media de la variable dependiente 28 216.26 11.75049 
DE de la variable dependiente 3 714.506 3.358613 
Determinante de covarianza residual 458 485.4 
Log verosimilitud (gl ajustados) -318.0944 
Criterio de información de Akaike 19.29967 
Criterio de Schwarz 19.74860 


donde los valores de los coeficientes se obtuvieron de la tabla 22.3. Ahora, con los valores apro- 
piados de Mı y R de la tabla 17.5, podemos afirmar que el valor pronosticado del dinero para 
el primer trimestre de 1988 es de 36 996 (millones de dólares canadienses). El valor real de M; 
para el primer trimestre de 1988 fue de 36 480, lo que significa que el modelo pronosticó en ex- 
ceso el valor real por casi 516 (millones de dólares), cantidad que representa casi 1.4% del valor 
real de M, para 1-1988. Desde luego, estas estimaciones cambian en función de la cantidad de 
valores rezagados que consideremos en el modelo VAR. Dejamos como ejercicio para el lector 
pronosticar el valor de R para el primer trimestre de 1988 y compararlo con su valor real para 
dicho periodo. 


VAR y causalidad 


Recordará que ya estudiamos el tema de la causalidad en el capítulo 17. Ahí estudiamos las 
pruebas de Granger y Sims de la causalidad. ¿Existe alguna conexión entre el modelo VAR y la 
causalidad? En el capítulo 17 (sección 17.14) vimos que, hasta el nivel de 2, 4 y 6 rezagos, había 
una causalidad bilateral entre M, y R, pero que en el rezago 8 no existía causalidad entre las dos 
variables. Por consiguiente, los resultados son ambiguos. Ahora recordará, del capítulo 21, el 
teorema de representación de Granger. Una implicación de este teorema es que si dos variables, 
por ejemplo X; y Y, están cointegradas y cada una es individualmente /(1), es decir, es integrada 
de orden 1 (por ejemplo, cada una es no estacionaria individualmente), X, debe causar (según el 
criterio de Granger) a Y, o Y, debe causar (según el criterio de Granger) a X; 

En el ejemplo ilustrativo, esto significa que M; y R son individualmente /(1) pero están coin- 
tegradas, entonces M debe causar (según el criterio de Granger) a R o R debe causar (según el 
criterio de Granger) a Mı. Esto significa que debemos averiguar primero si ambas variables son 
individualmente /(1) y luego si están cointegradas. De no ser así, todo el asunto de la causalidad 
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se convertiría en una ficción. En el ejercicio 22.22 se pide al lector determinar si las dos variables 
son no estacionarias pero están cointegradas. Si efectúa el ejercicio, descubrirá una débil eviden- 
cia de cointegración entre M y R, razón por la cual las pruebas de causalidad analizadas en la 
sección 17.14 eran erróneas. 


Algunos problemas en la creación de modelos VAR 


Los defensores de VAR destacan las siguientes virtudes del método: 1) El método es simple; no 
es preciso preocuparse por determinar cuáles variables son endógenas y cuáles son exógenas. 
Todas las variables en VAR son endógenas.!* 2) La estimación es simple, es decir, el método 
usual de MCO es aplicable a cada ecuación por separado. 3) Las predicciones obtenidas mediante 
este método son en muchos casos mejores que las obtenidas con modelos de ecuaciones simul- 
táneas más complejos.'* 

No obstante, los críticos de los modelos VAR señalan los siguientes problemas: 


1. A diferencia de los modelos de ecuaciones simultáneas, un modelo VAR es ateórico por- 
que utiliza menos información previa. Recuerde que en los modelos de ecuaciones simultáneas, 
la exclusión o inclusión de ciertas variables desempeña un papel crucial en la identificación del 
modelo. 


2. Debido a su acento en el pronóstico, los modelos VAR son menos apropiados para el aná- 
lisis de políticas. 


3. El mayor desafío práctico en el diseño de modelos VAR es seleccionar la longitud apro- 
piada del rezago. Suponga que tenemos un modelo VAR de tres variables y decidimos incluir 
ocho rezagos de cada variable en cada ecuación. Tendremos 24 parámetros rezagados en cada 
ecuación más el término constante, para un total de 25 parámetros. A menos que el tamaño de 
la muestra sea grande, la estimación de tantos parámetros consumirá muchos grados de libertad, 
con todos los problemas asociados a esto.'* 


4. En sentido estricto, en un modelo VAR de m variables, todas las m variables deben ser 
estacionarias (en forma conjunta). Si no es así, tendremos que transformar la información en 
forma apropiada (por ejemplo, mediante una primera diferenciación). Como menciona Harvey, 
los resultados de la información transformada pueden ser no satisfactorios. Afirma además: “El 
método usual adoptado por los aficionados al VAR es, por consiguiente, trabajar en niveles, aun- 
que algunas de estas series no sean estacionarias. En este caso es importante reconocer el efecto 
de las raíces unitarias en la distribución de los estimadores”.'? Peor aún, si el modelo contiene 
una mezcla de variables /(0) e (1), es decir, una mezcla de variables estacionarias y no estacio- 
narias, no será fácil transformar la información. 

Sin embargo, Cuthbertson sostiene: “El análisis de cointegración indica que un VAR sólo 
en primeras diferencias está mal especificado si hay algunos vectores cointegrantes presentes 
entre la serie (1). Dicho de otro modo, un VAR exclusivamente en primeras diferencias omite 


3 Algunas veces se incluyen variables puramente exógenas para dar cabida a factores estacionales y de ten- 
dencia. 
*Véase, por ejemplo, T. Kinal y J.B. Ratner, “Regional Forecasting Models with Vector Autoregression: The 
Case of New York State”, documento de trabajo # 155, Departamento de Economía, State University of 
New York at Albany, 1982. 
5 Si tenemos un modelo VAR de m ecuaciones con p valores rezagados de las m variables, en total tenemos 
que estimar (m + pm?) parámetros. 


$ Andrew Harvey, The Econometric Analysis of Time Series, The MIT Press, 2a. ed., Cambridge, Massachusetts, 
1990, p. 83. 
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variables estacionarias potencialmente importantes (es decir, la corrección de errores, vectores 
cointegrantes) y, por consiguiente, las estimaciones de los parámetros pueden padecer el sesgo 


de variables omitidas”.'” 


5. Como con frecuencia es difícil interpretar los coeficientes individuales estimados en los 
modelos VAR, los practicantes de esta técnica a menudo estiman la llamada función de impulso- 
respuesta (FIR). La FIR estudia la respuesta de la variable dependiente en el sistema VAR ante 
choques en los términos de error, como u; y uz en las ecuaciones (22.9.1) y (22.9.2). Suponga 
que u en la ecuación Mı aumenta en el valor de una desviación estándar. Ese choque o cambio 
modificará a M tanto en el periodo actual como en periodos futuros. Pero, como M; aparece en 
la regresión de R, el cambio en u; afectará también a R. En forma similar, un cambio de una des- 
viación estándar en uz de la ecuación de R tendrá un efecto sobre Mı. La FIR estudia el impacto 
de tales choques durante varios periodos en el futuro. Aunque los investigadores cuestionan la 
utilidad del análisis FIR, es la pieza central en el análisis VAR. !8 

Para comparar el desempeño de VAR con otras técnicas de pronóstico, el lector puede consul- 
tar las referencias.!? 


Una aplicación de VAR: un modelo VAR 
de la economía de Texas 


Para probar el refrán convencional: “Por donde va la mancha de petróleo se extiende la economía 
de Texas”, Thomas Fomby y Joseph Hirschberg elaboraron un modelo VAR de tres variables de 
la economía de Texas de 1-1974 a 1-1988.2 Las tres variables fueron: 1) cambio porcentual del 
precio real del petróleo, 2) cambio porcentual del empleo no agrícola de Texas y 3) cambio por- 
centual del empleo no agrícola en el resto de Estados Unidos. Los autores introdujeron el término 
constante y dos valores rezagados de cada variable en cada ecuación. Por consiguiente, el número 
de parámetros estimados en cada ecuación fue de siete. En la tabla 22.4 se presentan los resulta- 
dos de la estimación por MCO del modelo VAR. Las pruebas F de esta tabla deben corroborar 
la hipótesis de que, en forma conjunta, los diversos coeficientes rezagados son cero. Por tanto, la 
prueba F para la variable x (cambio porcentual del precio real del petróleo) muestra que los dos 
términos rezagados de x son estadísticamente diferentes de cero; la probabilidad de obtener un 
valor F de 12.5536, según la hipótesis nula de que ambos son simultáneamente iguales a cero, es 
muy baja, alrededor de 0.00004. Por otra parte, en forma conjunta, los dos valores y rezagados 
(cambio porcentual en el empleo no agrícola de Texas) no son significativamente diferentes de 
cero para explicar x; el valor F es sólo 1.36. Todos los demás estadísticos F deben interpretarse 
en forma similar. 

Con base en éstos y otros resultados presentados en su trabajo, Fomby y Hirschberg concluyen 
que el refrán sobre la economía de Texas no es del todo preciso, pues, después de la inestabilidad 
Inicial resultante de las crisis del petróleo de los países de la OPEP, la economía de Texas es ahora 
menos dependiente de las fluctuaciones en el precio del petróleo. 


17 Keith Cuthbertson, Quantitative Financial Economics: Stocks, Bonds and Foreigh Exchange, John Wiley & 
Sons, Nueva York, 2002, p. 436. 

18 D.E, Runkle, “Vector Autoregression and Reality”, Journal of Business and Economic Statistics, vol. 5, 1987, 
pp. 437-454. 

19 S, McNees, “Forecasting Accuracy of Alternative Techniques: A Comparison of U.S. Macroeconomic Fore- 
casts”, Journal of Business and Economic Statistics, vol. 4, 1986, pp. 5-15; E. Mahmoud, “Accuracy in Fore- 
casting: A Survey”, Journal of Forecasting, vol. 3, 1984, pp. 139-159. 

20 Thomas B. Fomby y Joseph G. Hiarschberg, “Texas in Transition: Dependence on Oil and the National 
Economy”, en Economic Review, Federal Reserve Bank of Dallas, enero de 1989, pp. 11-28. 


790 Parte Cuatro Modelos de ecuaciones simultáneas y econometría de series de tiempo 


rei esti- Variable dependiente: x (cambio porcentual del precio real del petróleo) 
mación del sistema VAR Variable Rezago Coeficiente Error estándar Nivel de significancia 
A x 1 0.7054 0.1409 0.8305E-5 
i x 2 -0.3351 0.1500 0.3027E-1 
Fuente: Economic Review, Fede- y 1 -1.3525 2.7013 0.6189 
ral Reserve Bank of Dallas, enero y 2 3.4371 2.4344 0.1645 
aid dd Z 1 3.4566 2.8048 0.2239 
Z 2 -4.8703 2.7500 0.8304E-1 
Constante 0 -0.9983E-2 0.1696E-1 0.5589 


R? = 0.2982; Q(21) = 8.2618 (P= 0.9939) 
Pruebas de significancia conjunta, variable dependiente = x 


Variable Estadístico F Nivel de significancia 
x 12.5536 0.4283E-4 
y 1.3646 0.2654 
Z 1.5693 0.2188 
Variable dependiente: y (cambio porcentual del empleo no agrícola de Texas) 
Variable Rezago Coeficiente Error estándar Nivel de significancia 
x 1 0.2228E-1 0.8759E-2 0.1430E-1 
x 2 -0.1883E-2 0.9322E-2 0.8407 
y 1 0.6462 0.1678 0.3554E-3 
y 2 0.4234E-1 0.1512 0.7807 
Z 1 0.2655 0.1742 0.1342 
Z 2 -0.1715 0.1708 0.3205 
Constante 0 -0.1602E-2 0.1053E-1 0.1351 


R? = 0.6316; Q(21) = 21.5900 (P = 0.4234) 
Pruebas de significancia conjunta, variable dependiente = y 


Variable Estadístico F Nivel de significancia 
x 3.6283 0.3424E-4 
y 19.1440 0.8287E-6 
Z 1.1684 0.3197 


Variable dependiente: z (cambio porcentual del empleo no agrícola en el resto 
de Estados Unidos) 


Variable Rezago Coeficiente Error estándar Nivel de significancia 

X 1 —0.8330E-2 0.6849E-2 0.2299 

X 2 0.3635E-2 0.7289E-2 0.6202 

y 1 0.3849 0.1312 0.5170E-2 

y 2 -0.4805 0.1182 0.1828E-2 

Z 1 0.7226 0.1362 0.3004E-5 

Z 2 —0.1366E-1 0.1336 0.9190 
Constante (0) —0.2387E-2 0.8241E-3 0.5701E-2 


R? = 0.6503; Q(21) = 15.6182 (P = 0.7907) 
Pruebas para la significancia conjunta, variable dependiente = z 


Variable Estadístico F Nivel de significancia 
x 0.7396 0.4827 
y 8.2714 0.8360E-3 
Z 27.9609 0.1000E-7 


* Términos con dos rezagos de cada variable. 
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22.10 Medición de la volatilidad de las series de tiempo 
financieras: modelos ARCH y GARCH 


Como mencionamos en la introducción de este capítulo, las series de tiempo financieras, como 
precios de acciones, tasas de cambio, tasas de inflación, etc., a menudo presentan el fenómeno de 
acumulación de la volatilidad; es decir, existen lapsos en los que sus precios muestran amplias 
variaciones durante prolongados periodos y luego se dan intervalos de una calma relativa. Como 
señala Philip Franses: 


En vista de que tales datos (las series de tiempo financieras) reflejan el resultado del comercio entre 
compradores y vendedores a precios del mercado, por ejemplo, diversas fuentes de noticias y otros 
acontecimientos exógenos pueden afectar el patrón de las series de tiempo de los precios de los valo- 
res. En vista de que las noticias tienen diversas interpretaciones y también de que los acontecimientos 
económicos específicos, como las crisis del petróleo, perduran cierto tiempo, a menudo vemos que 
las grandes observaciones positivas y negativas en las series de tiempo financieras tienden a aparecer 


en grupos.?! 


Conocer la volatilidad es muy importante en muchas áreas. Por ejemplo, existe una enorme 
cantidad de trabajo en econometría sobre la variabilidad de la inflación a lo largo del tiempo. Para 
algunas personas con poder de decisión, la inflación en sí misma quizá no sea dañina, pero no es 
deseable su variabilidad porque dificulta la planificación financiera. 

Sucede lo mismo con los importadores, exportadores y comerciantes que acuden a los merca- 
dos de cambio de divisas, pues la variabilidad de las tasas de cambio representa grandes pérdidas 
o ganancias. A los inversionistas de las casas de bolsa obviamente les interesa la volatilidad de los 
precios de las acciones, pues una gran volatilidad puede significar enormes pérdidas o ganancias 
y, en consecuencia, provocar mayor incertidumbre. En los mercados volátiles, a las compañías les 
resulta difícil capitalizarse en los mercados de capital. 

¿Cómo se modelan las series de tiempo financieras que experimentan tal volatilidad? Por 
ejemplo, ¿cómo se elabora un modelo de las series de tiempo de precios de acciones, tasas de 
cambio, inflación, etcétera? Una característica de la mayoría de estas series de tiempo financieras 
consiste en que en su forma de nivel son caminatas aleatorias; es decir, son no estacionarias. Por 
otra parte, en la forma de primeras diferencias, por lo general resultan estacionarias, como vimos 
en el caso de las series del PIB del capítulo anterior, aunque el PIB no sea estrictamente una serie 
de tiempo financiera. 

En consecuencia, en vez de modelar las series de tiempo financieras en su forma de nivel, ¿por 
qué no hacer los modelos de sus primeras diferencias? Sin embargo, estas primeras diferencias 
suelen presentar amplias variaciones, o volatilidad, lo cual indica que la varianza de las series 
de tiempo financieras se modifica con el tiempo. ¿Cómo podemos determinar el modelo de dicha 
“variación cambiante”? En estos casos es cuando resulta práctico el llamado modelo de heteros- 
cedasticidad condicional autorregresivo (ARCH), que originalmente desarrolló Engle.” 

Como su nombre lo indica, la heteroscedasticidad, o varianza desigual, puede tener una es- 
tructura autorregresiva en la que la heteroscedasticidad observada a lo largo de diferentes perio- 
dos quizá esté autocorrelacionada. Para tener idea de todo lo que esto significa, analizaremos un 
ejemplo concreto. 


21 Philip Hans Franses, Time Series Models for Business and Economic Forecasting, Cambridge University Press, 
Nueva York, 1998, p. 155. 

22 R, Engle, “Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United 
Kingdom Inflation”, en Econometrica, vol. 50, núm. 1, 1982, pp. 987-1007. Véase también A. Bera y M. 
Higgins, “ARCH Models: Properties, Estimation and Testing”, en Journal of Economic Surveys, vol. 7, 1993, 
pp. 305-366. 
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EJEMPLO 22.1 
Tipo de cambio Es- 
tados Unidos/Reino 
Unido: Ejemplo 


FIGURA 22.6 
Logaritmo del tipo de 
cambio Estados Unidos/ 
Reino Unido, 1971-2007 
(mensual). 


FIGURA 22.7 
Variación en el loga- 
ritmo del tipo de cambio 
Estados Unidos/Reino 
Unido. 


La figura 22.6 proporciona los logaritmos del tipo de cambio mensual entre Estados Unidos y el 
Reino Unido (dólares por libra) de 1971 a 2007, para un total de 444 observaciones mensuales. 
Como observa en esta figura, hay considerables altibajos en el tipo de cambio a lo largo del pe- 
riodo muestral. Para ver este movimiento de forma más ilustrativa, en la figura 22.7 graficamos 
las variaciones en los logaritmos del tipo de cambio; observe que las variaciones en los logarit- 
mos de una variable denotan cambios relativos, los cuales, si se multiplican por 100, propor- 
cionan los cambios porcentuales. Como se observa, los cambios relativos en el tipo de cambio 
EUA/RU muestran periodos de una amplia variación durante cierto tiempo, y lapsos de fluctua- 
ción más bien moderada, lo cual ejemplifica el fenómeno de acumulación de la volatilidad. 

Ahora bien, la pregunta práctica es: ¿cómo medimos estadísticamente la volatilidad? Ilustra- 
remos esto con el ejemplo del tipo de cambio. 


Sea Y= tipo de cambio Estados Unidos/RU 
Y = log de Y; 
dYč = Yč — YE: = variación relativa del tipo de cambio 
dY = media de dY;* 
Xt = ava == VAS 


LAr 


Logaritmo del tipo de cambio 
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Variación en el logaritmo del tipo de cambio 
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EJEMPLO 22.1 


(continuación) 
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Por consiguiente, X; es el cambio relativo ajustado por la media en el tipo de cambio. Ahora 
podemos utilizar X? como una medida de la volatilidad. Al ser una cantidad al cuadrado, su 
valor será alto en periodos en que se experimenten grandes cambios en los precios de los bienes 
financieros, y comparativamente pequeño cuando sucedan cambios modestos en los precios de 
dichos bienes.?* 

Al aceptar XÊ como medida de la volatilidad, ¿cómo sabemos si cambia con el tiempo? Su- 
ponga que consideramos el siguiente modelo AR(1) o ARIMA (1, O, 0): 


KE = f T PIN Eg +ue (22.10.1) 


Este modelo postula que la volatilidad en el periodo actual está relacionada con su valor del 
periodo anterior más un término de error de ruido blanco. Si fi es positiva, esto indica que si 
la volatilidad era alta en el periodo anterior, seguirá siendo alta en el periodo actual, lo cual señala 
una acumulación de volatilidad. Si $, es cero, no se presenta una acumulación de volatilidad. La 
significancia estadística del $2 estimado se juzga mediante la prueba t usual. 

No existe nada que impida considerar un modelo AR(p) de volatilidad tal que 


XÈ = bo + Bı X2 +P2X23 + 0 + BpX2 + ue (22.10.2) 


Este modelo indica que la volatilidad en el periodo actual está relacionada con la de los p pe- 
riodos anteriores, y el valor de p es una cuestión empírica que se resuelve mediante uno o más 
criterios de selección de modelos que estudiamos en el capítulo 13 (por ejemplo, la medida de 
información de Akaike). Podemos probar la significancia de cualquier coeficiente individual £ 
mediante la prueba t y la significancia colectiva de dos o más coeficientes mediante la prueba 
Fusual. 

El modelo (22.10.1) es un ejemplo de un modelo ARCH(1), y el (22.10.2) se conoce como 
modelo ARCH(p), donde p representa el número de términos autorregresivos en el modelo. 

Antes de continuar, ejemplificaremos el modelo ARCH con los datos del tipo de cambio entre 
EUA y RU. Los resultados del modelo ARCH(1) fueron los siguientes: 


X = 0.00043 + 0.23036X? , 
t= (7.71) (4.97) (22.10.3) 
R2? = 0.0531 d= 1.9933 


donde X? se definió como antes. 

Como el coeficiente del término rezagado es en gran medida significativo (el valor p es de 
casi 0.000), parece que hay acumulación de la volatilidad en este ejemplo. Consideramos mo- 
delos ARCH de órdenes más grandes, pero sólo el AR(1) resultó significativo. 

En general, ¿cómo probaríamos el efecto ARCH en un modelo de regresión basado en datos 
de series de tiempo? Para ser más específicos, considere el modelo de regresión con k varia- 
bles: 


Ye = i + B2X2t +=: + PBrXke + Ut (22.10.4) 


y suponga que al ser condicional respecto de la información disponible en el tiempo (t — 1), el 
término de perturbación está distribuido como 


ut ~ N[0, (ao +ou )| (22.10.5) 


(continúa) 


23 Tal vez se pregunte por qué no utilizar la varianza de X¢ = Y” X?/n como medida de la volatilidad. Lo an- 

terior no es posible, pues deseamos tomar en cuenta la volatilidad cambiante de los precios de las acciones a 
lo largo del tiempo. Si utilizamos la varianza de X;, sólo constituiría un único valor para el conjunto de datos 

dado. 
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EJEMPLO 22.1 


(continuación) 


es decir, u sigue la distribución normal con media 0 y 
var (ut) = Q +0 uža) (22.10.6) 


es decir, la varianza de u; sigue un proceso ARCH(1). 

La normalidad de u; no resulta una novedad. Lo que sí es novedoso es que la varianza de u 
en el tiempo t dependa de la perturbación al cuadrado en el tiempo (t — 1), para dar así la apa- 
riencia de una correlación serial.?* Desde luego, la varianza del error puede depender no sólo del 
término rezagado del término de error al cuadrado, sino también de diversos términos de error 
al cuadrado rezagados, de la siguiente forma: 


var(u) = oê = ao + a1 U2 4 +a2U2 +--+ ApUE p (22.10.7) 
Si no hay autocorrelación en la varianza del error, tenemos 
Ho: Q1 =04=:+::: =0p=0 (22.10.8) 


en cuyo caso var(u = go, por lo que tendríamos el efecto ARCH. 

Como of no observamos de manera directa, Engle demostró que al llevar a cabo la siguiente 
regresión se prueba con facilidad la hipótesis nula anterior: 
07 = o + âr? 1 +02007+-:+ópÚr y (22.10.9) 
donde ú;, como siempre, denota los residuales de MCO obtenidos del modelo de regresión 
original (22.10.4). 

Se puede demostrar la hipótesis nula Hp mediante la prueba F usual, o de otra manera, 
al calcular nR?, donde R? es el coeficiente de determinación obtenido de la regresión auxiliar 
(22.10.9). Se puede probar que 


MEA (22.10.10) 


asy 
es decir, para muestras grandes nR? sigue la distribución ji cuadrada cuyos gl son iguales al nú- 
mero de términos autorregresivos de la regresión auxiliar. 

Antes de ejemplificar, hay que asegurarse de no confundir la autocorrelación del término de 
error, como la analizamos en el capítulo 12, con el modelo ARCH. En dicho modelo, la varianza 
(condicional) de us depende de los términos de error (al cuadrado) anteriores, por lo que da la 
impresión de que existe autocorrelación. 


EJEMPLO 22.2 
Cambio de precios 
de las acciones en 
la Bolsa de Valores 
de Nueva York 


Como otra ejemplificación del efecto ARCH, en la figura 22.8 presentamos el índice de cambio 
porcentual mensual de la BVNY (Bolsa de Valores de Nueva York) de 1966 a 2002.?* Resulta evi- 
dente, a partir de la gráfica, que los cambios porcentuales de los precios del índice de la BVNY 
presentan una volatilidad considerable. Observe sobre todo la enorme variación alrededor de la 
caída de los precios de las acciones en 1987. 

Para expresar la volatilidad en los rendimientos de la bolsa de la figura, considere un modelo 
muy sencillo: 


Y.=B1+u1 (22.10.11) 


donde Y; = cambio porcentual en el índice de la BVNY y u; = término de error aleatorio. 


24 Una nota técnica: Recuerde que, para el modelo clásico lineal, supusimos que la varianza de uç era igual 
a o?, que en el presente contexto se convierte en varianza incondicional. Si œ < 1, la condición de esta- 
bilidad, escribimos o? = a + a10?; es decir, o? = œọ/(1 — œ). Lo anterior demuestra que la varianza incon- 
dicional de u no depende de t, pero sí del parámetro ARCH a. 


25 Esta gráfica y los resultados de la regresión presentados después se basan en los datos recopilados por 
Gary Koop, Analysis of Economic Data, John Wiley & Sons, Nueva York, 2000 (los datos se tomaron del disco 
que acompaña a esta obra). El porcentaje de cambio mensual en el índice de precios de las acciones puede 
considerarse una tasa de rendimiento del índice. 
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EJEMPLO 22.2 FIGURA 22.8 Cambio porcentual mensual del índice de precios de la BVNY, 1966-2002. 
(continuación) 
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Observe que, aparte del intercepto, no existe otra variable explicativa en el modelo. De los 
datos, obtenemos la siguiente regresión por MCO: 


Y,= 0.00574 
t=(3.36) (22.10.12) 
d=1.4915 


¿Qué denota este intercepto? Tan sólo la tasa porcentual promedio de rendimiento del índice 
de la BVNY, o el valor medio de Y; (¿puede verificar esto?). Así, en el periodo muestral, el rendi- 
miento promedio mensual del índice de la BVNY fue de casi 0.00574%. 

Ahora obtenemos los residuos a partir de la regresión anterior y estimamos el modelo 
ARCH(1), lo cual proporciona los siguientes resultados: 


— 


û? = 0.000007 + 0.25406ú? ; 


t = (0.000) (5.52) (22.10.13) 
R2 = 0.0645 d = 1.9464 


donde û+es el residuo estimado de la regresión (22.10.12). 

Como el término de perturbación rezagado al cuadrado es estadísticamente significativo (el 
valor de p es de casi 0.000), parece que las varianzas de los errores están correlacionadas; es 
decir, existe un efecto ARCH. Probamos modelos ARCH de orden superior, pero sólo ARCH(1) 
fue estadísticamente significativo. 


¿Qué hacer cuando ARCH está presente? 

Recuerde que ya analizamos diversos métodos para corregir la heteroscedasticidad, lo cual básica- 
mente está implícito al aplicar el método de MCO para transformar los datos. Debe tener presente 
que MCO aplicados a los datos transformados son mínimos cuadrados generalizados (MCG). 
Si se encuentra el efecto ARCH, tendremos que utilizar MCG. No daremos detalles técnicos, 
pues trascienden el alcance de esta obra.?* Por fortuna, los software como EViews, SHAZAM, 
MICROFITT y PC-GIVE ahora cuentan con rutinas sencillas para estimar dichos modelos. 


26 Consulte Russell Davidson y James G. MacKinnon, Estimation and Inference in Econometrics, Oxford Univer- 
sity Press, Nueva York, 1993. Véase la sec. 16.4 y William H. Greene, Econometric Analysis, 4a. ed., Prentice 
Hall, Englewood Cliffs, Nueva Jersey, 2000, sec. 18.5. 
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Advertencia sobre la prueba d de Durbin-Watson y el efecto ARCH 


Hemos recordado al lector varias veces que un estadístico d significativo tal vez no signifique 
siempre que exista una autocorrelación significativa en los datos disponibles. Con mucha fre- 
cuencia, un valor d significativo es una indicación de que existen errores de especificación del 
modelo, los cuales analizamos en el capítulo 13. Ahora tenemos un error de especificación adi- 
cional, el debido al efecto ARCH. Por consiguiente, en una regresión de series de tiempo, si se 
obtiene un valor d significativo, debemos probar la existencia del efecto ARCH antes de aceptar 
el estadístico d plenamente. En el ejercicio 22.23 damos un ejemplo. 


Nota sobre el modelo GARCH 


Desde su “descubrimiento”, en 1982, la elaboración de modelos ARCH se ha convertido en un 
área floreciente, con todo tipo de variantes respecto del modelo original. Uno muy popular es el 
condicional autorregresivo generalizado con heteroscedasticidad, propuesto por Bollerslev.?” 
El modelo GARCH más simple es el GARCH(1,1), que se expresa como: 


o? = do + ou? + 0907 (22.10.14) 


1 


el cual enuncia que la varianza condicional de u en el tiempo £ depende no sólo del término de 
error al cuadrado del periodo anterior [como sucede en ARCH(1)], sino también de su varianza 
condicional en el periodo anterior. Este modelo puede generalizarse al modelo GARCH(p, q) en 
el que existen p términos rezagados del término de error al cuadrado y q términos de las varianzas 
condicionales rezagadas. 

No proporcionamos los detalles técnicos de estos modelos, como están presentes; pero sí 
diremos que el modelo GARCH(1, 1) equivale a un ARCH(2) y el modelo GARCH(p, q) al 
ARCH(p + q).2% 

Para los ejemplos del tipo de cambio entre el dólar estadounidense y la libra inglesa, y el de los 
rendimientos de las acciones en la BVNY, ya establecimos que un modelo ARCH(2) no era signi- 
ficativo, lo cual indica que un modelo GARCH(1, 1) quizá no resulta apropiado en estos casos. 


22.11 Ejemplos para concluir 


Este capítulo finaliza con el estudio de unos cuantos ejemplos adicionales que ilustran algunos 
puntos que analizamos aquí. 


EJEMPLO 22.3 
Relación entre el 
índice de oferta- 
demanda de empleo 
(10D) y la tasa de 
desempleo (TD) 

de enero de 1969 a 
enero de 2000. 


Para analizar la causalidad entre el IOD y la TD, dos indicadores de las condiciones del mercado 
de trabajo en Estados Unidos, Marc A. Giammatteo planteó el siguiente modelo de regresión:?? 


25 25 

IOD: = œo + Y a/TD;-; +) 8j10D;- (22.11.1) 
i=1 j 
25 25 

TD; = œo + X A¡TD, ¡+ Y 8/10D; j (22.11.2) 


¡=1 j= 
Con el objeto de ahorrar espacio, no presentamos los resultados propiamente dichos de la 
regresión, pero la conclusión principal que surge de este análisis es que existe una causalidad bi- 
lateral entre los dos indicadores del mercado de trabajo; asimismo, dicha conclusión no cambió 
cuando se modificó la duración del rezago. Los datos sobre el IOD y la TD se proporcionan en 
el sitio Web del libro, en la tabla 22.5. 


27T, Bollerslev, “Generalized Autorregresive Conditional Heteroscedasticity”, en Journal of Econometrics, vol. 
31, 1986, pp. 307-326. 

28 Para mayores detalles, véase Davidson y MacKinnon, op. cit., pp. 558-560. 

22 Marc A. Giammatteo (West Point, Generación de 2000), “The Relationship between the Help-Wanted 
Index and the Unemployment Rate”, trabajo final del trimestre escolar, inédito. (La notación se modificó con 
el objeto de adaptarla a la de este libro.) 
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EJEMPLO 22.4 El tipo de cambio yen/dólar (¥/$) es un tipo de cambio clave. Al tomar el logaritmo de Y/$ men- 
Creación de un mo- sual se encontró que, en la forma nivel, este tipo de cambio mostró el patrón habitual de una 
serie de tiempo no estacionaria. Pero al analizar las primeras diferencias, se descubrió que eran 


eta ARIMA Pag el estacionarias; la gráfica de esta situación se parece mucho a la figura 22.8. 
tipo de cambio entre El análisis de raíz unitaria confirmó que las primeras diferencias de los logaritmos de ¥/$ 
el yen y el dólar: eran estacionarias. Después de examinar el correlograma del logaritmo de las primeras diferen- 
de exaro de IOTI a cias, estimamos el siguiente modelo MA(1): 
abril de 2008 Y, = 0.0028 — 0.3300u;-1 
t=(-1.71) (27.32) (22.11.3) 
R2 = 0.1012 d= 1.9808 

donde Y; = las primeras diferencias de los logaritmos de ¥/$ y u es un término de error de ruido 

blanco. 

Para ahorrar espacio, proporcionamos los datos en los que se basó el análisis anterior en el 
sitio Web del libro, en la tabla 22.6. Con esa información, se pide al lector que pruebe otros 
modelos y compare los pronósticos obtenidos. 

EJEMPLO 22.5 Para verificar si el efecto ARCH está presente en la tasa de inflación de Estados Unidos según la 


Modelo ARCH para mide el IPC, obtuvimos los datos de dicho índice de enero de 1947 a marzo de 2008. La gráfica 
de los logaritmos del IPC mostró que la serie de tiempo era no estacionaria. Pero la gráfica de 
las primeras diferencias de los logaritmos del IPC, como se muestra en la figura 22.9, presenta 
de Estados Unidos: volatilidad considerable, si bien las primeras diferencias son estacionarias. 


la tasa de inflación 


De enero de 1947 a Según el procedimiento descrito en las regresiones (22.10.12) y (22.10.13), primero efec- 

marzo de 2008 tuamos la regresión de los logaritmos de las primeras diferencias del IPC sobre una constante y 
obtenemos los residuos de esta ecuación. Al elevar al cuadrado los residuos tenemos el siguiente 
modelo ARCH(2): 


F= 0.000028 + 0.1212542, + 0.08/1802, 
t= (5.42) (3.34) (2.41) (22.11.4) 
R2=0.026  d=2.0214 


Como puede observar, existe una enorme persistencia de la volatilidad, pues, en el mes actual, 
depende de la de los últimos tres meses. Se recomienda al lector que obtenga los datos sobre 
el IPC en fuentes gubernamentales e intente averiguar si otro modelo resulta más adecuado, de 
preferencia un modelo GARCH. 


FIGURA 22.9 0.07 - 
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Resumen y 
conclusiones 


1. Los métodos Box-Jenkins y VAR para pronósticos económicos son opciones respecto de los 
modelos tradicionales uniecuacionales y de ecuaciones simultáneas. 

2. Para pronosticar valores de una serie de tiempo, la estrategia básica de Box-Jenkins es la si- 
guiente: 

a) Examine primero si la serie es estacionaria. Esto se logra al calcular la función de auto- 
correlación (FAC) y la función de autocorrelación parcial (FACP), o mediante un análisis 
formal de raíz unitaria. Los correlogramas asociados a FAC y FACP son, con frecuencia, 
buenas herramientas de diagnóstico visual. 

b) Si la serie de tiempo es no estacionaria, debe diferenciarse una o más veces para alcanzar 
la estacionariedad. 

c) Se calculan entonces la FAC y la FACP de la serie de tiempo estacionaria para determinar 
si la serie es autorregresiva pura, del tipo de promedios móviles puro, o una mezcla de las 
dos. Así, de los lineamientos generales de la tabla 22.1, se determinan los valores de p y q 
en el proceso ARMA que se va a ajustar. En esta etapa, el modelo ARMA(p, q) seleccio- 
nado es tentativo. 

d) Entonces se estima el modelo tentativo. 

e) Se examinan los residuos de este modelo tentativo para establecer si son de ruido blanco. 
Si lo son, el modelo tentativo es quizás una buena aproximación al proceso estocástico 
subyacente. Si no lo son, el proceso se inicia de nuevo. Por consiguiente, el método de 
Box-Jenkins es iterativo. 

J) El modelo finalmente seleccionado sirve para pronosticar. 

3. El enfoque VAR para pronósticos considera diferentes series de tiempo a la vez. Las caracte- 
rísticas que distinguen al VAR son las siguientes: 

a) Es un sistema simultáneo en el sentido de que todas las variables se consideran endógenas. 

b) En la elaboración de modelos VAR, el valor de una variable se expresa como función 
lineal de los valores pasados o rezagados de esa variable y de todas las demás variables 
incluidas en el modelo. 

c) Si cada ecuación contiene el mismo número de variables rezagadas en el sistema, éste se 
estima mediante MCO sin recurrir a otros métodos asociados a sistemas, como el método 
de mínimos cuadrados en dos etapas (MC2E) o las regresiones aparentemente no relacio- 
nadas (SURE). 

d) Esta simplicidad en la elaboración de modelos VAR puede ser su desventaja. En vista del 
limitado número de observaciones disponibles en la mayoría de los análisis económicos, 
la introducción de los diversos rezagos de cada variable puede consumir muchos grados 
de libertad.% 

e) Si hay varios rezagos en cada ecuación, no siempre es fácil interpretar cada coeficiente, 
en especial si se alternan los signos de los coeficientes. Por esta razón, en la elaboración 
de modelos VAR se examina la función de impulso-respuesta (FIR) para determinar la 
forma como responde la variable dependiente ante un choque administrado a una o más 
ecuaciones en el sistema. 

J) Hay mucha discusión y controversia sobre la superioridad de los diversos métodos de pro- 
nósticos. Los métodos de pronósticos uniecuacionales, de ecuaciones simultáneas, Box- 
Jenkins y VAR tienen sus defensores como también sus detractores. Todo lo que podemos 
decir es que no hay un método que por sí mismo sea apropiado para todas las situaciones. 
De ser así, no habría necesidad de analizar las diversas opciones. Una cosa es segura: las 
metodologías de Box-Jenkins y VAR ya forman parte integral de la econometría. 

4. En este capítulo también estudiamos una clase especial de modelos, ARCH y GARCH, par- 
ticularmente útiles en el análisis de las series de tiempo financieras, como precios de acciones, 


30 Los partidarios de las estadísticas bayesianas creen que este problema se puede reducir. Véase R. Litter- 
man, “A Statistical Approach to Economic Forecasting”, en Journal of Business and Economic Statistics, vol. 4, 
1986, pp. 1-4. 


EJERCICIOS 
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tasas de inflación y tasas de cambio. Una característica sobresaliente de estos modelos es que 
la varianza del error quizá esté correlacionada a lo largo del tiempo, debido al fenómeno de la 
acumulación de la volatilidad. Al respecto, también señalamos que, en muchos casos, una d de 
Durbin-Watson significativa puede deberse a un efecto ARCH o GARCH. 

5. Existen variantes de los modelos ARCH y GARCH, pero no los consideramos en este capítulo 
debido a restricciones de espacio. Algunos de estos otros modelos son GARCH-M (GARCH 
en la media), TGARCH (umbral GARCH) y EGARCH (GARCH exponencial). En las refe- 


rencias hay debates sobre estos modelos. 


31 


Preguntas 


Ze 
222. 


DDR 


22.4. 


ASA 


22.6. 
DAT 


22.8. 


UDS), 


22.10. 


¿Cuáles son los métodos más importantes para pronósticos económicos? 

¿Cuáles son las principales diferencias entre el método de ecuaciones simultáneas y el de 
Box-Jenkins para pronósticos económicos? 

Esquematice los pasos principales relacionados con la aplicación del método de Box- 
Jenkins para pronósticos económicos. 

¿Qué sucede si se aplican las técnicas de Box-Jenkins a series de tiempo no estaciona- 
rias? 

¿Qué diferencias hay entre los métodos de Box-Jenkins y VAR para pronósticos econó- 
micos? 

¿En qué sentido es ateórico el modelo VAR? 

“Si el objetivo principal es el pronóstico, VAR lo logrará.” Evalúe críticamente esta afir- 
mación. 

Como el número de rezagos que se va a introducir en un modelo VAR puede ser un 
asunto subjetivo, ¿cómo se decide cuántos rezagos deben introducirse en una aplicación 
concreta? 

Comente la siguiente afirmación: “Box-Jenkins y VAR son los ejemplos más importantes 
de medición sin teoría”. 

¿Cuál es la conexión, de existir, entre las pruebas de causalidad de Granger y el diseño de 
modelos VAR? 


Ejercicios empíricos 


22.11. 


22127 
DIAS 


22.14. 
ZION: 


22.16. 


Considere los datos sobre los logaritmos del IPD (ingreso personal disponible) en la 
sección 21.1 (consulte los datos reales en el sitio Web del libro). Suponga que deseamos 
ajustar un modelo ARIMA apropiado a estos datos. Defina los pasos que implica la reali- 
zación de esta labor. 

Repita el ejercicio 22.11 para los datos de LGCP (gasto de consumo personal) presenta- 
dos en la sección 21.1 (una vez más, consulte los datos reales en el sitio Web del libro). 
Repita el ejercicio 22.11 para los datos de LUE (utilidades empresariales). 

Repita el ejercicio 22.11 para los datos de LDIVIDENDOS. 

En la sección 13.9 explicamos el criterio de información de Schwarz para determinar la 
longitud del rezago. ¿Cómo utilizaría este criterio para determinar la longitud apropiada 
del rezago en un modelo VAR? 

Con los datos sobre LGCP y LIPD de la sección 21.1 (consulte los datos reales en el sitio 
Web del libro), desarrolle un modelo bivariado VAR de 1-1970 a 1V-2006. Con este modelo 
pronostique los valores de estas variables para los cuatro trimestres de 2007 y compare los 
valores de pronóstico con los valores reales que se proporcionan en el conjunto de datos. 


31 Véase Walter Enders, Applied Econometric Time Series, 2a. ed., John Wiley € Sons, Nueva York, 2004. Para 
un análisis orientado a la aplicación, véase Dimitrios Asteriou y Stephen Hall, Applied Econometrics: A Modern 
Approach, edición revisada, Palgrave/Macmillan, Nueva York, 2007, capítulo 14. 
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PRAT 
*22.18. 


LN), 


22.20. 


2272F 


22A 


DEDO 


20D AS 


LIA 


22.26. 


Lo 


Repita el ejercicio 22.16 con los datos sobre LDIVIDENDOS y LUE. 

Utilice cualquier paquete estadístico y estime la función de impulso-respuesta para un 
periodo hasta de ocho rezagos para el modelo VAR que desarrolló en el ejercicio 22.16. 
Repita el ejercicio 22.18 para el modelo VAR desarrollado en el ejercicio 22.17. 
Consulte los resultados de la regresión VAR de la tabla 22.4. De las diversas pruebas F 
hechas en las tres regresiones que allí se dieron, ¿qué puede decir sobre la naturaleza de 
la causalidad en las tres variables? 

Continuando con el ejercicio 20.20, ¿puede suponer la razón por la cual los autores deci- 
dieron expresar las tres variables en el modelo en forma de cambios porcentuales en lugar 
de usar las variables en su forma de nivel? (Sugerencia: Estacionariedad.) 

Con los datos para Canadá proporcionados en la tabla 17.5, investigue si Mı y R son 
variables aleatorias estacionarias. Si no es así, ¿están cointegradas? Muestre los cálculos 
necesarios. 

Continúe con los datos de la tabla 17.5. Ahora considere el siguiente modelo sencillo de 
la demanda de dinero en Canadá: 


ln Mi; = Bi 3 Bo In PIB, 3 b3 ln R, ar Ur 
a) ¿Cómo interpretaría los parámetros de este modelo? 
b) Obtenga los residuos a partir de este modelo y determine si existe algún efecto 
ARCH. 


Consulte el modelo ARCH(3) dado en (22.11.4). Con los mismos datos calculamos el 
siguiente modelo ARCH(1): 
û? = 0.00000078 + 0.3737û? 
t = (7.5843) (10.2351) 
R = 0O d = 1.9896 

¿Cómo elegiría entre ambos modelos? Muestre los cálculos necesarios. 

La tabla 22.7 contiene datos sobre las tasas de interés de los pagarés del Tesoro a tres 

(TB3M) y a seis meses (TB6M), del 1 de enero de 1982 a marzo de 2008, para un total 

de 315 observaciones mensuales. Los datos se encuentran en el sitio Web del libro. 

a) Trace la gráfica de las dos series de tiempo en el mismo diagrama. ¿Qué observa? 

b) Realice un análisis formal de raíz unitaria para ver si estas series de tiempo son esta- 
cionarias. 

c) ¿Están cointegradas las dos series de tiempo? ¿Cómo sabe? Realice los cálculos ne- 
cesarios. 

d) ¿Qué significado económico tiene cointegración en este contexto? Si las dos series no 
están cointegradas, ¿qué repercusiones económicas tiene esto? 

e) Si desea estimar un modelo VAR, por ejemplo, con cuatro rezagos de cada variable, 
¿es necesario usar las primeras diferencias de las dos series o puede realizar el análisis 
de las dos series en su forma de nivel? Justifique su respuesta. 

Ejercicio en clase: Elija un índice del mercado de valores y obtenga datos diarios sobre el 

valor del índice elegido para cinco años con el propósito de averiguar si el índice bursátil 

se caracteriza por efectos ARCH. 

Ejercicio en clase: Recopile datos sobre las tasas de inflación y desempleo en Estados 

Unidos correspondientes a los periodos trimestrales de 1980 a 2007 y desarrolle y estime 

un modelo VAR para las dos variables. Para calcular la tasa de inflación, utilice el IPC 

(índice de precios al consumidor), y la tasa de desempleo civil para calcular la tasa de 

desempleo. Es preciso prestar mucha atención a la estacionariedad de estas variables. 

Además, averigile si una variable causa, según Granger, la otra variable. Presente todos 

sus cálculos. 


* Opcional. 


Apéndice 


Revisión de algunos 
conceptos estadísticos 


En este apéndice se introducen, en forma muy general, algunos conceptos estadísticos que apa- 
recen en este texto. El análisis no es riguroso y no se presentan pruebas debido a que existen 
diversos libros de estadística, excelentes, que hacen muy bien ese trabajo. Algunos de esos libros 
se mencionan al final del apéndice. 


A.l Operadores de sumatoria y de producto 


Con la letra mayúscula griega ) (sigma) se indica la sumatoria. Así, 
n 
Xox =X1 +x2 +: + Xn 
i=l 


Algunas de las propiedades más importantes del operador de sumatoria -` son 


1. Nk = nk, donde k es una constante. Así, $4; 3 = 4- 3 = 12. 
i=l 


2. X;_ kx; =k);_; x; donde k es una constante. 


3. Y ;_¡(a + bxi) = na +b 5) ;_, x; donde a y b son constantes y se emplean las propiedades 
1 y 2 anteriores. 


4. Piai + Y) = Dj xi + Dia Yi- 


El operador de sumatoria también se amplía a sumas múltiples. Así, X`}, el operador de doble 
sumatoria, se define como 


n m n 


Y Y dy = 25 + xiz +: + Xim) 


i=l j=1 
= (xu + x2 + 0 + Xn) + (Ap + x22 + ++ + Xm2) 
++ (im + Xam + «~+ Xp) 


Algunas de las propiedades de `}. son: 


L Pa ja ij = DO -1 2- Xj es decir, el orden en el cual se realice la doble sumatoria es 
intercambiable. 


2. sel ii Xy = L= Xi el Xis 
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3. ar jaj EY) = Dir jar ij + Dir Dya Vij. 
A E Ea a = ak ED y > 
El operador de producto II se define como 

n 

[Tx =X1 + Xo>*"Xp 

¡=1 


Por tanto, 
3 
[ [x = X1:X2:X3 
i=1 


A.2 Espacio muestral, puntos muestrales y sucesos 


El conjunto de todos los resultados posibles de un experimento aleatorio, o al azar, se denomina 
población o espacio muestral, y cada miembro de este espacio muestral se denomina punto 
muestral. Por tanto, en el experimento de lanzar dos monedas, el espacio muestral consta de 
estos cuatro resultados posibles: AH, HT, TH y TT, donde HH significa una cara en el primer lan- 
zamiento y nuevamente una cara en el segundo, AT significa una cara en el primer lanzamiento 
y una cruz en el segundo, y así sucesivamente. Cada uno de los sucesos anteriores constituye un 
punto muestral. 

Un suceso es un subconjunto del espacio muestral. Así, si 4 denota la ocurrencia de una cara 
y de una cruz, entonces, de los posibles resultados anteriores, sólo dos pertenecen a 4, a saber: 
HT y TH. En este caso, Á constituye un suceso. En forma similar, la ocurrencia de dos caras en el 
lanzamiento de dos monedas es un suceso. Se dice que los sucesos son mutuamente excluyen- 
tes si la ocurrencia de uno impide la ocurrencia de otro. Si en el ejemplo anterior ocurre AH, no 
es posible la ocurrencia del suceso HT al mismo tiempo. Decimos que los sucesos son exhaus- 
tivos (colectivamente) si se agotan todos los resultados posibles de un experimento. Así, en el 
ejemplo, los sucesos a) dos caras, b) dos cruces y c) una cruz y una cara agotan todos los resul- 
tados posibles; por tanto, son sucesos exhaustivos (colectivamente). 


A.3 Probabilidad y variables aleatorias 
Probabilidad 


Sea Á un suceso en un espacio muestral. Sea P(4) la probabilidad del suceso 4, es decir, la pro- 
porción de veces que el suceso 4 ocurrirá en ensayos repetidos de un experimento. En forma 
alterna, en un total de n posibles resultados igualmente probables de un experimento, si m de ellos 
son favorables a la ocurrencia del suceso 4, se define la razón m/n como la frecuencia relativa 
de A. Para valores grandes de n, esta frecuencia relativa constituye una muy buena aproximación de 
la probabilidad de 4. 


Propiedades de la probabilidad 
P(A) es una función de valor real! y tiene estas propiedades: 
1. 0 < P(4) < 1 para todo A. 


2. Si 4, B, C, ... constituye un conjunto de sucesos exhaustivo, entonces P(A +B + C+---)=1, 
donde A + B + C significa A o B o C, y así sucesivamente. 


3. Si A, B, C, ... son sucesos mutuamente excluyentes, entonces 
P(A+B++C+---)= P(A) +P(B)+ P(C) +- 


1 Una función cuyo dominio y rango son subconjuntos de números reales se conoce generalmente como 
función real de una variable real. Para mayores detalles, véase Alpha C. Chiang, Fundamental Methods of 
Mathematical Economics, 3a. ed., McGraw-Hill, 1984, capítulo 2. 
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EJEMPLO 1 


Considere el experimento de lanzar un dado numerado del 1 al 6. El espacio muestral consta 
de los resultados 1, 2, 3, 4, 5 y 6. Por consiguiente, estos seis sucesos agotan la totalidad del 
espacio muestral. La probabilidad de obtener cualquiera de estos números es 1/6, pues son seis 
resultados igualmente probables y cada uno tiene igual probabilidad de aparecer. Como 1, 2, 
3, 4, 5 y 6 forman un conjunto exhaustivo de sucesos, P(1 +2+3+4+5+6)= 1, donde 1, 
2, 3,... significa la probabilidad del número 1 o del número 2 o del número 3, etcétera. Como 
1, 2,..., 6 son sucesos mutuamente excluyentes en donde dos números no pueden obtenerse 
simultáneamente, P(1+2+3+4+5+6)=P(1)+PGQ)+-+--+P(6)=1. 


Variables aleatorias 


Una variable cuyo valor está determinado por el resultado de un experimento al azar se denomina 
variable aleatoria (va). Las variables aleatorias se denotan usualmente por las letras mayúsculas 
X, Y, Z, y así sucesivamente, y los valores que toman se denotan por letras minúsculas, x, y, z, 
etcétera. 

Una variable aleatoria puede ser discreta o continua. Una va discreta adquiere sólo un nú- 
mero finito (o infinito contable) de valores.? Por ejemplo, al lanzar dos dados, cada uno numerado 
del 1 al 6, si definimos la variable aleatoria X como la suma de los números que aparecen en los 
dados, entonces X toma uno de los siguientes valores: 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 o 12; por tanto, 
se trata de una variable aleatoria discreta. Una va continua, por su parte, es una variable que 
puede tomar cualquier valor dentro de un intervalo de valores. Así, la estatura de un individuo es 
una variable continua —por ejemplo, en el intervalo entre 152.4 y 165.1 centímetros— y puede 
adquirir cualquier valor, según la precisión de la medición. 


A.4 Función de densidad de probabilidad (FDP) 


Función de densidad de probabilidad 
de una variable aleatoria discreta 
Sea X una va discreta que toma valores diferentes x1, x2, . . . Xn. Entonces, la función 
FG) = P(X =x) parai=1,2,...,2M,... 
=0 para x Æ xi 


se denomina función de densidad de probabilidad discreta (FDP) de X, donde P(X = x;) sig- 
nifica la probabilidad de que la va discreta X tome el valor de x;. 


EJEMPLO 2 


En un lanzamiento de dos dados la variable aleatoria X, la suma de los números que aparecen 
en dos dados, puede tomar uno de los 11 valores mostrados. La FDP de esta variable se muestra 
como sigue (véase también la figura A.1): 


X= 2 3 0 5 6 A 8 Y 10 11 12 


100 = (35) (65) (55) (5) 65) EA E) 


Estas probabilidades se verifican fácilmente. En total, hay 36 resultados posibles, de los cuales 
uno es favorable al número 2, dos son favorables al número 3 (pues la suma de 3 se presenta 
como 1 en el primer dado y 2 en el segundo dado, o 2 en el primer dado y 1 en el segundo 
dado), y así sucesivamente. 


(continúa) 


2 Hay un análisis sencillo de la noción de conjuntos contables infinitos en R. G. D. Allen, Basic Mathematics, 
Macmillan, Londres, 1964, p. 104. 
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EJEMPLO 2 FIGURA A.1 Función de densidad de la variable aleatoria discreta del ejemplo 2. 
(continuación) ; 
fa) 
6 
L 
5 
2L 
4 
4l 
3 
¿L 
2 
H+ 
1 
al | 
2 5 4 DO 7 SS do 1 12 
Función de densidad de probabilidad 
de una variable aleatoria continua 
Sea X una va continua. Entonces, se dice que f(x) es la FDP de X si se satisfacen las siguientes 
condiciones: 
fœ) 0 
00 
| f(x)dx=1l 
—00 
b 
f(x)dx = Pla < x < b) 
a 
donde f(x)dx se conoce como el elemento probabilístico (la probabilidad asociada a un pequeño 
intervalo de una variable continua) y donde P(a < X < b) significa la probabilidad de que X se 
encuentre en el intervalo a a b. Geométricamente, tenemos la figura A.2. 

Para una va continua, en contraste con una va discreta, la probabilidad de que Xtome un valor 
específico es cero;* la probabilidad para tal variable sólo se mide sobre un rango o intervalo dado, 
como (a, b) que aparece en la figura A.2. 

EJEMPLO 3 Considere la siguiente función de densidad: 
1 
f(x) = a O<x<3 
Se verifica con facilidad que f(x) > 0 para toda X en el rango 0 a 3 y que e 5x2dx = 1. (Nota: 
La integral es (x 5) = 1.) Si deseamos evaluar la FDP anterior entre O y 1, obtenemos 
fa 1x2dx = (5x? 11) = Z; es decir, la probabilidad de que X se encuentre entre O y 1 es de 
1/27. 
FIGURA A.2 


Función de densidad de 
una variable aleatoria 
continua. 


P(a<X<b) 


3 Nota: ff f(x)dx = 0. 
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Funciones de densidad de probabilidad conjunta 
FDP conjunta discreta 
Sean X y Y dos variables aleatorias discretas. Entonces, la función 
f(x, y) = P(X =x y Y =y) 
=0 cuando X AxyY A y 


se conoce como función de densidad de probabilidad conjunta discreta y da la probabilidad 
(conjunta) de que X tome el valor de x y Y tome el valor de y. 


EJEMPLO 4 La siguiente tabla presenta la FDP conjunta de las variables discretas X y Y. 
X 
—2 (0) 2 3 
3 0.27 0.08 0.16 0 
Y 
6 0 0.04 0.10 0.35 
Esta tabla muestra que la probabilidad de que X tome el valor de —2 mientras simultáneamente 
Y toma el valor de 3 es 0.27, y que la probabilidad de que X tome el valor de 3 mientras Y toma 
el valor de 6 es 0.35, y así sucesivamente. 
Función de densidad de probabilidad marginal 
En relación con f(x, y), f(x) y f(y) se denominan funciones de densidad de probabilidad indivi- 
duales o marginales. Estas FDP marginales se obtienen de la siguiente manera: 
FO) = y f(x,y) FDP marginal de X 
y 
FG) = » f(x,y) FDP marginal de Y 
donde, por ejemplo, Pa. significa la suma sobre todos los valores de Y y >, significa la suma 
sobre todos los valores de X. 
EJEMPLO 5 Considere la información del ejemplo 4. La FDP marginal de X se obtiene de la siguiente manera: 


f(x=-2) = ` f(x, y) = 0.27 + 0 = 0.27 
Y 
f(x= 0) = de f(x, y) = 0.08 + 0.04 = 0.12 
Y 
AA= 2) =D 1) 0 o 0 10/=026 
Y 
f(x= 3) = y f(x, Y) = 0 +0.35 = 0.35 
Y 
Asimismo, la FDP marginal de Y se obtiene así: 
f(y = 3) = E f(x, y) = 0.27 + 0.08 + 0.16 + 0 = 0.51 
X 
f(y =6) = Y ' f(x, y) = 0 + 0.04 + 0.10 + 0.35 = 0.49 
xX 
Como muestra este ejemplo, para obtener la FDP marginal de X sumamos la columna de nú- 


meros y para obtener la FDP marginal de Y sumamos la fila de números. Observe que >”, f(x) 
sobre todos los valores de X es 1, como lo es >, f(y) sobre todos los valores de Y (¿por qué?). 
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FDP condicional 


Como mencionamos en el capítulo 2, en el análisis de regresión, el interés con frecuencia es 
estudiar el comportamiento de una variable condicional respecto de los valores de otra u otras 
variables. Para esto se considera la FDP condicional. La función 


fly) =P(X=x]|Y = y) 


se conoce como FDP condicional de X; da la probabilidad de que X tome el valor de x porque Y 
asumió el valor de y. En forma similar, 


Fy|x) =P(Y =y|X =x) 


lo cual da la FDP condicional de Y. 
Las FDP condicionales se obtienen de la siguiente manera: 


mw HL. maddiy 
FO) 

FO lx) = y) FDP condicional de Y 
Fx) 


Como muestran las expresiones anteriores, la FDP condicional de una variable se expresa como 
la razón de la FDP conjunta respecto de la FDP marginal de otra variable (condicionante). 


EJEMPLO 6 


Continuamos con los ejemplos 4 y 5 y calculamos las siguientes probabilidades condicionales: 


IN 
WES 


n==211M=35)= =02//0.51= 0.52 
Observe que la probabilidad incondicional f(X = —2) es 0.27, pero si Y asume el valor de 3, la 
probabilidad de que X tome el valor de —2 es 0.53. 


X= DN TO) 


US TT 


= 0.10/0.49 = 0.20 


Observe de nuevo que la probabilidad incondicional de que X tome el valor de 2 es 0.26, la cual 
es diferente de 0.20, que es su valor si Y asume el valor de 6. 


Independencia estadística 
Dos variables aleatorias X y Y son estadísticamente independientes si y sólo si 


Jœ y)= fS) 


es decir, si la FDP conjunta se expresa como el producto de las FDP marginales. 


EJEMPLO 7 


Una bolsa contiene tres bolas numeradas 1, 2 y 3. Se seleccionan de la bolsa dos bolas al azar, 
con reemplazo (es decir, la primera bola sacada se vuelve a poner en la bolsa antes de sacar la 
segunda). Sea X el número de la primera bola sacada y Y el número de la segunda. La siguiente 
tabla da la FDP conjunta de X y Y. 
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EJEMPLO 7 X 
(continuación) 1 2 3 
ll 1 ll 
9 9 9 
Y 5 0 35 5 
1 1 1 
3 9 9 9 
Ahora f(X =1, Y =1)= $, f(X = 1) = 4 (obtenido mediante la suma de los elementos de la 
primera columna) y f(y = 1) = 3 (obtenido mediante la suma de los elementos de la primera 
fila). Como en este ejemplo f (X,Y) = F009F(V), podemos decir que las dos variables son estadís- 
ticamente independientes. Con facilidad se verifica que, para cualquier otra combinación de los 
valores X y Y de la tabla anterior, las FDP conjuntas se factorizan en FDP individuales. 

Se observa que las variables X y Y del ejemplo 4 no son estadísticamente independientes, 
pues el producto de las dos FDP marginales no es igual a la FDP conjunta. (Nota: Debe cum- 
plirse que f(X, Y) = f(X)f(Y) en todas las combinaciones de X y Y si las dos variables han de ser 
estadísticamente independientes.) 

FDP conjunta continua 
La FDP f(x, y) de dos variables continuas X y Y es tal que 
Fx, y) 0 
[o,2) 00 
Pf repasa 
—00 Y —00 
d b 
/ f(x, y) dxdy=Pla<x<b,c< y < d) 
Cc a 
EJEMPLO 8 Considere la siguiente FDP: 


69 1M=2=S= Y wasza yal 


Es obvio que f(x, y) > 0. Además,‘ 


1 p1 
l | 2-x-)axdy=1 
o Jo 


La FDP marginal de X y de Y se obtiene como 


f(x) = l f(x, y)dy FDP marginal de X 


I= l f(x, y) dx FDP marginal de Y 


Nota: La expresión Gy — PIDE significa que la expresión entre paréntesis debe evaluarse para el valor del 
límite superior 1 y para el valor del límite inferior 0; el último valor se resta del primero para obtener el valor 
de la integral. Así, en el ejemplo anterior, los límites son E — 1) en y= 1 y 0 en y = 0, de lo que resulta que 


el valor de la integral es igual a 1. 
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EJEMPLO 9 


Las dos FDP marginales de la FDP conjunta del ejemplo 8 son las siguientes: 


1 1 
Fx) = l f(x, y)dy = i (2- x- y)dy 


2 
(z xy 5) =5 5 0<x<1 
0 


1 
=f (2- x- y)dx 


2 
(2 xy 5) =5 OSEA 


Para ver si las dos variables del ejemplo 8 son estadísticamente independientes debemos de- 
terminar si f(x, y) = f(x) f(y). Como (2— x — y) % G — 06 — Y), podemos decir que las dos 
variables no son estadísticamente independientes. 


A.5 Características de las distribuciones de probabilidad 


Una distribución de probabilidades a menudo se resume en términos de algunas de sus caracte- 
rísticas, conocidas como momentos de la distribución. Dos de los momentos más comunes son 
la media, o valor esperado, y la varianza. 


Valor esperado 
El valor esperado de una va discreta X, denotado por E(X), se define de la siguiente manera: 


E(X) = xf) 


xX 


donde >, significa la suma sobre todos los valores de X y f(x) es la FDP (discreta) de X. 


EJEMPLO 10 


Considere la distribución de probabilidades de la suma de dos números en el lanzamiento de dos 
dados analizada en el ejemplo 2 (figura A.1). Al multiplicar los diversos valores de X, dados allí 
por sus correspondientes probabilidades, y sumar sobre todas las observaciones, obtenemos: 


Eo0=2(4)+3(4)+4(4)++12(2) 
=y 


que es el valor promedio de la suma de los números observada en un lanzamiento de dos 
dados. 


EJEMPLO 11 


Estime E(X) y E(Y) para la información del ejemplo 4. Ya vimos que 


Xx =2 0 2 3 
f(x) 0.27 0.12 0.26 0.35 


Por consiguiente, 
E(X) = Y xt) 
= (2110.27) + (0)(0.12) + (2)(0.26) + (3)(0.35) 
= 1.03 
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EJEMPLO 11 En forma similar, 


(continuación) o 3 6 


EY 0.51 0.49 
EY) = yt 
y 


= (3)1(0.51) + (6)(0.49) 
= 4.47 


El valor esperado de una va continua se define como 
[e] 
E(X) =| xf(x)dx 
09) 


La única diferencia entre este caso y el valor esperado de una va discreta es que el símbolo de 
sumatoria se reemplaza por el símbolo de integral. 


EJEMPLO 12 Determinemos el valor esperado de la FDP continua del ejemplo 3: 
3 x2 
E) =/ (ja 
1 | A\T 
-a[()] 
0 


Propiedades de los valores esperados 


1. El valor esperado de una constante es la constante misma. Así, si b es una constante, 
E(b) = b. 


2. Si a y b son constantes, 
E(aX +b)=aE(X)+b 


Esto se puede generalizar. Si X1, X2, . . . , Xy son N variables aleatorias y a1, a2, . . . ay y b son 
constantes, 


Ea X1+09X2+->*+ayXy +b) =a E(X) + a E(X)) +: +ayE(Xy)+b 
3. Si Xy Y son variables aleatorias independientes, 
E(XY) = E(ME(Y) 
Es decir, la esperanza del producto XY es el producto de las esperanzas individuales de 


XyY. 
Sin embargo, observe que 


p E(X) 
(5) Ý ET) 


aunque X y Y sean independientes. 
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4. Si X es una variable aleatoria con FDP f(x) y si g(X) es cualquier función de X, entonces 


Ele] = Y ero) 


si X es discreta 


si X es continua 


= [ora 


Por tanto, si g(X) = X?, 


EX) = NX) 


si X es discreta 


si X es continua 


= J j x f(X) dx 


00 


EJEMPLO 13 


Considere la siguiente FDP: 


x Haa 
f) 3 3 5 
Entonces, 
Eoo = -2(3) (1) =2(8) 
=-} 
y 
E(x2) =4(4)+1(4)+4(3) 
= 2 
— 
Varianza 


Sea X una variable aleatoria y sea E(X) = u. La distribución o dispersión de los valores de X 
alrededor del valor esperado se mide por la varianza, la cual se define como 


var (X) =0%= E(X — py 


La raíz cuadrada positiva de OZ; gx, se define como desviación estándar de X. La varianza o la 
desviación estándar da una indicación de qué tan cercanos o dispersos están los valores indivi- 
duales de X respecto del valor de su media. 

La varianza definida anteriormente se calcula de la siguiente forma: 


var (X) = Y (X— Wf) 


si X es una va discreta 


si X es una va continua 


E Í X- uf) dx 


Por conveniencia de cálculo, la fórmula de la varianza anterior se expresa también como 
var (X) = 0? = E(X — py 
=E(X) — y? 
= E(X’) - [ECOP 


Al aplicar esta fórmula se ve que la varianza de la variable aleatoria dada en el ejemplo 13 es 
SE = W =3.23 
8 8 64 els 
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EJEMPLO 14 Determinemos la varianza de la variable aleatoria del ejemplo 3: 
var(X) = E(X2) - [EQOY 
Ahora, 


= 243/45 
= 2715 
Como E(X) = ¿ (ejemplo 12), tenemos al final 
2 
var (X) = 243/45 — (3) 
= 243/720 =0.34 


Propiedades de la varianza 
1. E(X— u}? = E(X?) — p?, como ya mencionamos. 
2. La varianza de una constante es cero. 


3. Si a y b son constantes, 
var (aX + b) = a? var (X) 
4. Si Xy Y son variables aleatorias independientes, 
var (X + Y) = var (X) + var (Y) 
var (X — Y) = var (X) + var (Y) 


Esto puede generalizarse a más de dos variables. 
5. Si Xy Y son va independientes y a y b son constantes, 


var (aX + bY) = a? var (X) + b? var (Y) 


Covarianza 


Sean X y Y dos va con medias ux y My, respectivamente. Entonces, la covarianza entre las dos 
variables se define como 


cov (X, Y) = EX — mY — 1y)) = E(XY) — uxu, 


Se observa con facilidad que la varianza de una variable es la covarianza de dicha variable con 
ella misma. 
La covarianza se calcula de la siguiente manera: 


cov(X, Y) = Y) Y (XML — My) (o, y) 


= Y Y XYf( y) — ukiy 
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si Xy Y son variables aleatorias discretas y 


cov = f f Aire rd dy 


00 00 
= ff xrradrdy— 10 
—00 Y —00 
si X y Y son variables aleatorias continuas. 


Propiedades de la covarianza 
1. Si Xy Y son independientes, su covarianza es cero, pues 


cov(X, Y) = E(XY) — flxMy 


= Uxhy — Ms ly porque E(XY) = E(XM)E(Y) = xy 
-o cuando X y Y son independientes 


cov (a + bX, c + dY) = bd cov (X, Y) 


donde a, b, c y d son constantes. 


EJEMPLO 15 Determinemos la covarianza entre las variables aleatorias discretas X y Y cuyas FDP conjun- 
tas son iguales a las del ejemplo 4. Del ejemplo 11, ya sabemos que ux = E(X) 1.03 y que 
uy = E(Y) = 4.47. 


ENS Y AVIC 
y x 
= (—2)(3)(0.27) + (0)(3)(0.08) + (2)(3)(0.16) + (3)(3)(0) 
+ (—2)(6)(0) + (0)(6)(0.04) + (2)(6)(0.10) + (3)(6)(0.35) 
= 6.84 
Por consiguiente, 
cov(X, Y) = E (XY) — Uxlty 

= 6.84 — (1.03)(4.47) 
= 2.24 


Coeficiente de correlación 
El coeficiente de correlación (poblacional) p (rho) se define como 


cov (X, Y) _ cov(X, Y) 


{var (X) var (Y)} 050; 


Así definido, p es una medida de la asociación lineal entre dos variables y su valor se sitúa entre 
—1 y +1, donde —1 indica una perfecta asociación negativa y +1 indica una perfecta asociación 
positiva. 

De la fórmula anterior se ve que 


cov (X, Y) = po, 0, 
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EJEMPLO 16 


Estime el coeficiente de correlación para la información del ejemplo 4. 

De las FDPs del ejemplo 11 se ve con claridad que ox = 2.05 y oy = 1.50. Demostramos ya 
que la cov(X, Y) = 2.24. Por consiguiente, al aplicar la fórmula anterior, estimamos p como 
2.24/(2.051(1.50) = 0.73. 


Varianzas de variables correlacionadas 
Sean X y Y dos va. Entonces, 
var (X + Y) = var (X) + var (Y) + 2 cov (X, Y) 
= var (X) + var (Y) + 2p0,0, 
var (X — Y) = var (X) + var (Y) — 2 cov (X, Y) 
= var (X) + var (Y) — 2p0,0y 
Sin embargo, si X y Y son independientes, la cov(X, Y) es cero, en cuyo caso la var(X + Y) y la 
var(X — Y) son ambas iguales a var(X) + var(Y ), como ya mencionamos. 


. . . . n 
Los resultados anteriores pueden generalizarse de la siguiente manera: sea } ` ;—; X; = X + 
Xz +-+-* + Xn; entonces la varianza de la combinación lineal »] X; es 


var (E») = Y var X, +29 Y cov(X;, X;) 
i=l i=l i<j 


= > X¡+ py Y Pij0¡0; 
i=l 


i<j 
donde p;; es el coeficiente de correlación entre X; y X;, y donde o; y o; son las desviaciones es- 
tándar de X; y X;. 
Por tanto, 
var (Xı + X2 + X3) = var Xı + var X, + var X; + 2 cov (X1, X2) 
+ 2 cov (X1, X3) + 2 cov (X2, X3) 
= var X, + var X) + var X3 + 20120107 


+ 20130103 + 200230203 


donde o1, o2 y 03 son las desviaciones estándar de X1, X2 y X3, respectivamente, y donde p12 es 
el coeficiente de correlación entre X y A, p13 entre X] y X, y pz entre X> y X3. 


Esperanza condicional y varianza condicional 


Sea f(x, y) la FDP conjunta de las variables aleatorias X y Y. La esperanza condicional de X, dada 
Y = y, se define como 


E(X|Y =y» =} xf(x|Y =y) si X es discreta 


xX 


00 
= / xf(x | Y = y) dx si X es continua 
00 
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donde E(X | Y = y) significa la esperanza condicional de X dada Y = y y donde f(x | Y = y) es la 
FDP condicional de X. La esperanza condicional de Y E(X | Y = x) se define en forma similar. 


Esperanza condicional 


Observe que E(X | Y) es una variable aleatoria porque es una función de la variable condicionante 
Y. Sin embargo, E(X | Y = y), donde y es un valor específico de Y, es una constante. 


Varianza condicional 
La varianza condicional de X dada Y = y se define como 


var(X| Y = y) = E([X— E(X] Y =y)P | Y = y) 


II 


Y TX — E(X|Y =y f(x | Y = y) si X es discreta 


II 


00 
J [X - E(X|Y =y) f(x|Y =y)dx si Xes continua 
00 


EJEMPLO 17 Calcule E(Y | X= 2) y var(Y | X= 2) para los datos del ejemplo 4. 
EAS E E 
O E) 
= 3(0.16/0.26) + 6(0.10/0.26) 
=4.15 


Noies IY = 31X = D= iO = 3, X =D = D= 01602 y 
F(Y =6|X =2)= F(Y =6, X= 2)/f(X = 2) = 0.10)0.26, por lo que 


var(Y | X =2)= Y [Y — E(Y |X = JAY IX =2) 
y 


= (3 — 4.15)?(0.16/0.26) + (6 — 4.15)?(0.10/0.26) 
= 25 


Propiedades de la esperanza y la varianza condicionales 


1. Si f(X) es una función de X, entonces E(f (X)| X) = f(X); es decir, la función de X se 
comporta como una constante en el cálculo de la esperanza condicional sobre X. Por tanto, 
[E (X? | X)] = E(X?); esto se debe a que si conocemos X, también conocemos X?. 


2. Si f(X) y (X) son funciones de X, entonces 
ELFY +2) X] = XVE |X) + g(4) 


Por ejemplo, E[XY + cX?| X] = XE(Y | X) + cX?, donde c es una constante. 


3. Si Xy Y son independientes, E (Y | X) = E (Y ); es decir, si X y Y son variables aleatorias inde- 
pendientes, la esperanza condicional de Y, dada X, es la misma que la esperanza incondicional 
de Y. 
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4. Ley de las esperanzas iteradas. Resulta interesante observar la siguiente relación entre la 
esperanza incondicional de una variable aleatoria Y E(Y) y su esperanza condicional basada 
en otra variable aleatoria X, E(Y | X): 


E(Y) = Ex[£(Y 14)] 


Lo anterior se conoce como la ley de las esperanzas iteradas, que en el presente contexto 
establece que la esperanza marginal, o incondicional, de Y es igual a la esperanza de su espe- 
ranza condicional; el símbolo Ey denota que la esperanza se calcula sobre los valores de X. En 
forma sencilla, esta ley enuncia que si primero obtenemos E(Y | X) como una función de X y 
toma su valor esperado sobre la distribución de los valores X, obtenemos E£(Y), la esperanza 
incondicional de Y. El lector puede verificar esto con los datos del ejemplo 4. 

Una implicación de la ley de esperanzas iteradas es que si la media condicional de Y dada X 
(es decir, E[Y | X]) es cero, la media (no condicional) de Y también es cero. Esto se desprende 
de inmediato porque en ese caso 


E[E(Y | X)] = E[0] =0 


5. Si Xy Y son independientes, var(Y | X) = var(Y). 


6. var(Y) = El var(Y | X)] + var[£(Y | X )]; es decir, la varianza (incondicional) de Y es igual a la 
esperanza de la varianza condicional de Y más la varianza de la esperanza condicional de Y. 


Momentos superiores de las distribuciones de probabilidad 


Aunque la media, la varianza y la covarianza son las medidas-resumen más frecuentes de las 
FDP univariadas y multivariadas, en ocasiones requerimos considerar momentos de orden mayor 
de las FDP, como los momentos tercero y cuarto. Los momentos tercero y cuarto de una FDP 
univariada f (x) alrededor del valor de su media (u) se definen como 


Tercer momento: E(X — py 


Cuarto momento: E(X — py 
En general, el momento r-ésimo alrededor de la media se define como 
r-ósimo momento: E(X — uy 


El tercero y cuarto momentos de una distribución sirven a menudo para estudiar la “forma” de 
una distribución de probabilidades, en particular su asimetría, S (es decir, falta de simetría), y su 
apuntamiento o curtosis, K (es decir, altura o aplanamiento), como se aprecia en la figura A.3. 

Una medida de asimetría se define como 


_ EY 


S z3 


tercer momento alrededor de la media 
desviación estándar elevada al cubo 


Una medida común de curtosis está dada por 


_ E(X-pY* 
— [E(X— py?Y 


cuarto momento alrededor de la media 


segundo momento elevado al cuadrado 
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FIGURA A.3 a) 05 
a) Asimetría; 
b) curtosis. 0.4 H Simétrica 
asmeni 
o3 L derecha — Asimetría izquierda 


b) 05 


— Leptocúrtica 


Mesocúrtica 


0.3 f 


0.2 — Platicúrtica 


0.1 


0.0 


Las FDP con valores de K menores que 3 se denominan platicúrticas (anchas o de colas cortas), 
y las que tienen valores mayores que 3 se denominan leptocúrticas (delgadas o de colas largas). 
Vea la figura A.3. Una FDP con un valor de curtosis de 3 se conoce como mesocúrtica, cuyo 
ejemplo principal es la distribución normal. (El análisis de la distribución normal está en la sec- 
ción A.6.) 

Más adelante veremos cómo se combinan las medidas de asimetría y curtosis para determinar 
si una variable aleatoria sigue una distribución normal. Recuerde que el procedimiento de prueba 
de hipótesis, seguido en las pruebas y F, parte del supuesto (por lo menos en muestras pequeñas 
o finitas) de que la distribución implícita de la variable (o estadístico muestral) es normal. Por 
consiguiente, es muy importante averiguar si este supuesto se cumple en aplicaciones concretas. 


A.6 Algunas distribuciones de probabilidad teóricas importantes 


En el texto se hace uso extenso de las siguientes distribuciones de probabilidad. 


Distribución normal 


La más conocida de todas las distribuciones de probabilidad teóricas es la distribución normal, 
cuya forma de campana es familiar para quien tenga un mínimo conocimiento estadístico. 

Se dice que una variable aleatoria (continua) X está normalmente distribuida si su FDP tiene 
la siguiente forma: 


00 <x <œ 


~ l 1 (x — py 
100 00 E 


FIGURA A.4 


Áreas bajo la curva 


normal. 
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| | | ji | | 
-30 -20 -0 u o 20 30 


le 68% (aprox.)-» 
«———— 95% (aprox.) 


99.7% (aprox.) 


donde u y o°, conocidos como parámetros de la distribución, son la media y la varianza de la 


distribución, respectivamente. Las propiedades de esta distribución son las siguientes: 


1. Es simétrica alrededor de su valor medio. 
2. Aproximadamente 68% del área bajo la curva normal se encuentra entre los valores de u 4 


EO, 


alrededor de 95% del área se encuentra entre u + 20 y alrededor de 99.7% del área se encuen- 
tra entre u + 30, como se ve en la figura A.4. 


3. La distribución normal depende de dos parámetros, yu y o”. Por tanto, una vez especificados, 


podemos encontrar la probabilidad de que X esté dentro de cierto intervalo mediante la FDP 
de la distribución normal. Pero esta labor se aligera considerablemente al consultar la tabla 
D.1 del apéndice D. Para utilizar esta tabla, convertimos la variable dada X normalmente 
distribuida con media u y 0? en una variable Z normal estandarizada mediante la siguiente 
transformación: 


Una propiedad importante de toda variable estandarizada es que su valor medio es cero y su 
varianza es la unidad. Así, Z tiene media cero y varianza unitaria. Al sustituir z en la FDP an- 
terior obtenemos 


que es la FDP de la variable normal estandarizada. Las probabilidades en el apéndice D, tabla 
D.1, se basan en esta variable normal estandarizada. 
Por convención, denotamos una variable distribuida normalmente como 


X ~ N(p, 0?) 


donde ~ significa “distribuido como”, N significa distribución normal y las cantidades en los 
paréntesis son los dos parámetros de la distribución normal, a saber: la media y la varianza. 
Según esta convención, 


X ~ N(0,1) 


significa que X es una variable normalmente distribuida con media cero y varianza unitaria. En 
otras palabras, es una variable Z normal estandarizada. 
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EJEMPLO 18 


Suponga que X ~ N(8, 4). ¿Cuál es la probabilidad de que X tome un valor entre X1 = 4 y X2 = 

12? Para calcular la probabilidad requerida, obtenemos los valores Z como 

X1 =p e 4-8 a 
o DA 

Xa= m 12=8 
o E 2 


Zi 2 


+2 


Za 


Ahora, de la tabla D.1 observamos que Pr(0 < Z < 2) = 0.4772. Entonces, por simetría, tenemos 
Pr(?2 < Z < 0) = 0.4772. Por consiguiente, la probabilidad requerida es 0.4772 + 0.4772 = 
0.9544. (Figura A.4.) 


EJEMPLO 19 


¿Cuál es la probabilidad de que, en el ejemplo anterior, X exceda 12? 
Esta probabilidad es la misma de que Z exceda 2. De la tabla D.1, es obvio que esta probabi- 
lidad es (0.5 — 0.4772) o 0.0228. 


4. Sea Xı ~ N(uy, o?) y X2 ~ N(ua, 03) y suponga que son independientes. Considere ahora 


la combinación lineal 
Y =aX,+bX, 
donde a y b son constantes. Entonces se demuestra que 
Y ~ N[(auı + bm), (ado? + b?03)] 


Este resultado, que establece que una combinación lineal de variables normalmente distribui- 
das también tiene distribución normal, se generaliza fácilmente a una combinación lineal de 
más de dos variables normalmente distribuidas. 


. Teorema central del límite. Sean X1, X2, . . . , X, n variables aleatorias independientes, las 


cuales tienen la misma FDP con media = yu y varianza = o°. Sea X = Y X;/n (es decir, la 
media muestral). Entonces, a medida que n aumenta indefinidamente (es decir, n > 09), 


= o? 
n>00 n 
Es decir, X se acerca a la distribución normal con media u y varianza o?/n. Observe que este 
resultado se cumple sin importar la forma de la FDP. Como resultado, se deduce que 


Xp ağ- 
5 an 


Es decir, Z es una variable normal estandarizada. 


~ N(0, 1) 


. Los momentos tercero y cuarto de la distribución normal alrededor del valor de la media son 


los siguientes: 
Tercer momento: EX—puy=0 
Cuarto momento: E(X — py! =30* 


Nota: Todos los momentos elevados a potencias impares alrededor del valor de la media de 
una variable normalmente distribuida son cero. 


. Como resultado, y según las medidas de asimetría y curtosis ya analizadas, para una FDP nor- 


mal tenemos una asimetría = 0 y curtosis = 3; es decir, una distribución normal es simétrica y 


FIGURA A.5 
Función de densidad 
de la variable x°. 
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mesocúrtica. Por consiguiente, una prueba simple de normalidad es determinar si los valores 
calculados de asimetría y curtosis se apartan de las normas de 0 y 3. Esta es, en realidad, la 
lógica de la prueba de normalidad de Jarque-Bera (JB) estudiada en el texto: 


[SS (K-3Y 


donde S significa asimetría y K curtosis. Según la hipótesis nula de normalidad, JB está distri- 
buida como un estadístico ji cuadrada con 2 gl. 


8. La media y la varianza de una variable aleatoria normalmente distribuida son independientes, 
en el sentido de que la primera no es una función de la segunda. 


9. Si X y Y están distribuidas normalmente de manera conjunta, son independientes si y sólo si 
la covarianza entre ellas [es decir, cov(X Y )] es cero. (Consulte el ejercicio 4.1.) 


Distribución x? (ji cuadrada) 
Sean Z1, Z2, . . . , Zk variables normales estandarizadas independientes (es decir, variables norma- 
les con media cero y varianza unitaria). Así, se dice que la cantidad 


k 
Z=) Z 
i=l 


sigue la distribución x? con k grados de libertad (gl), donde el término gl significa el número 
de cantidades independientes en la suma anterior. Una variable distribuida como ji cuadrada se 


denota por x?, donde el subíndice k indica los gl. Geométricamente, la distribución ji cuadrada 
aparece en la figura A.S. 


Las propiedades de la distribución x? son las siguientes: 


1. Como indica la figura A.S, la distribución x? es una distribución asimétrica; el grado de la 
asimetría depende de los gl. Cuando los gl son comparativamente pocos, la distribución está 
muy sesgada hacia la derecha; pero a medida que aumenta el número de gl, la distribución es 
cada vez más simétrica. De hecho, para gl por encima de 100, la variable 


VW —VOk=1) 


puede tratarse como una variable normal estandarizada, donde k son los gl. 


10?) 


Densidad 
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2. La media de la distribución ji cuadrada es k y su varianza es 2k, donde k son los gl. 


3. Si Zi y Z2 son dos variables ji cuadrada independientes con kı y ka gl, la suma Z¡ + Z2 es tam- 
bién una variable ji cuadrada con gl = kı + ko. 


EJEMPLO 20 ¿Cuál es la probabilidad de obtener un valor x? de 40 o superior, si los gl son 20? 

Como muestra la tabla D.4, la probabilidad de obtener un valor x? de 39.9968 o mayor 
(20 gl) es 0.005. Por consiguiente, la probabilidad de obtener un valor x? de 40 es menor que 
0.005, probabilidad un tanto baja. 
Distribución t de Student 
Si Z¡ es una variable normal estandarizada [es decir, Z; ~ N(0, 1)] y otra variable Z, sigue la 
distribución ji cuadrada con k gl y está distribuida independientemente de Z4, entonces la variable 
definida como 

v(Z2/k) 
_ZiNk 
~ Z2 

sigue la distribución ź de Student con k gl. Una variable distribuida f se designa con frecuencia 
como tz, donde el subíndice k denota los gl. Geométricamente, la distribución f se muestra en la 
figura A.6. 

Las propiedades de la distribución ź de Student son las siguientes: 
1. Como indica la figura A.6, la distribución £, lo mismo que la distribución normal, es simétrica, 

pero es más plana que la normal. Sin embargo, a medida que aumentan los gl, la distribución 

t se aproxima a la distribución normal. 
2. La media de la distribución f es cero y su varianza es k/(k — 2). 

La distribución f está tabulada en la tabla D.2. 

EJEMPLO 21 Si gl = 13, ¿cuál es la probabilidad de obtener un valor t (a) de 3 o más, (b) de alrededor de —3 

o más pequeño y (c) de |t] de alrededor de 3 o superior, donde |t| significa el valor absoluto (es 
decir, sin tomar en cuenta el signo) de t? 

De la tabla D.2, las respuestas son (a) alrededor de 0.005, (b) alrededor de 0.005 debido a la 
simetría de la distribución t y (c) alrededor de 0.01 = 2(0.005). 

FIGURA A.6 


Distribución ź de Student 
para grados de libertad 
seleccionados. 


w k = 120 (normal) 


k=20 


-MA = a a a — 


FIGURA A.7 
Distribución F para diver- 
sos grados de libertad. 
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Distribución F 
Si Z¡ y Z2 son variables ji cuadrada distribuidas en forma independiente con kı y ka gl, respecti- 
vamente, la variable 


Za J ke 
Z2] ko 


sigue la distribución F (de Fisher) con kı y kz gl. Una variable que sigue una distribución F se 
denota por Frk» donde los subíndices indican los gl asociados con las dos variables Z, y donde 
kı son los gl del numerador y kn los gl del denominador. En la figura A.7 se muestra geométrica- 
mente la distribución F. 

La distribución F tiene las siguientes propiedades: 


1. Al igual que la distribución ji cuadrada, la distribución F está sesgada hacia la derecha. Pero 
puede demostrarse que, a medida que aumentan kı y ko, la distribución F se acerca a la distri- 
bución normal. 


2. El valor de la media de una variable con distribución F es k2/(k2 — 2), el cual está definido 
para k > 2 y su varianza es 


24 (ki + k — 2) 
ki(k2 — 2} (k2 — 4) 


definida para k > 4. 


3. El cuadrado de una variable aleatoria con distribución ź con k gl sigue una distribución F con 
1 y k gl. Simbólicamente, 


t = Fix 


EJEMPLO 22 


Si kı = 10 y k2 = 8, ¿cuál es la probabilidad de obtener un valor F (a) de 3.4 o mayor y (b) de 
5.8 o mayor? 

Como muestra la tabla D.3, estas probabilidades son (a) aproximadamente 0.05 y (b) aproxi- 
madamente 0.01. 
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4. Si el número de gl del denominador, kz, es relativamente alto, se cumple la siguiente relación 
entre las distribuciones F y ji cuadrada: 


kF E e 


Es decir, para un número de gl del denominador relativamente grande, los gl del numerador 
multiplicados por el valor F equivalen aproximadamente a un valor ji cuadrada con los gl del 
numerador. 


EJEMPLO 23 


Sean kı = 20 y k2 = 120. El valor F crítico a 5% para estos gl es 1.48. Por consiguiente, k¡F= 
(2011.48) = 29.6. De la distribución ji cuadrada para 20 gl, el valor crítico ji cuadrada a 5% es 
alrededor de 31.41. 


A propósito, observe que, como para un número grande de gl las distribuciones t, ji cuadrada y 
F se aproximan a la distribución normal, estas tres se conocen como distribuciones relacionadas 
con la distribución normal. 


Distribución binomial de Bernoulli 


Se dice que una variable aleatoria X sigue una distribución de Bernoulli (en honor del matemático 
suizo) si su función de densidad de probabilidad (FDP), o de masa, es: 


P(X=0)=1-p 
P(X=1)=p 


donde p, 0 < p < 1, es la probabilidad de que algún suceso sea un “éxito”, como la probabilidad 
de que caiga cara en un lanzamiento de moneda. Para tal variable, 


EX) =[1 x p(X=1)+0x p(X=0)] = p 
var (4) = pq 
donde q = (1 — p), es decir, la probabilidad de un “fracaso”. 


Distribución binomial 


Esta distribución es la generalización de la distribución de Bernoulli. Sea n el número de intentos 
independientes, cuyos resultados son un “éxito” con una probabilidad p y un “fracaso” con una 
probabilidad q = (1 — p). Si X representa el número de éxitos en n intentos, se dice que X sigue 
una distribución binomial cuya FDP es: 


n X n—x 
HX) = (2)? (=p) 
donde x representa el número de éxitos en n intentos y donde 


n 2 n! 
(+) a Mn—x)! 


donde n! se lee como n factorial, lo cual significa n(n —1 )(n — 2)... 1. 
La distribución binomial es de dos parámetros, n y p. Para dicha distribución, 


E(X) = np 
var (X) = np(1 — p) = npq 
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Por ejemplo, si usted lanza una moneda 100 veces y desea saber la probabilidad de obtener 60 
caras, debe colocar p = 0.5, n = 100 y x = 60 en la fórmula anterior. Existen rutinas de cálculo 
para evaluar tales probabilidades. 

Puede observar que la distribución binomial es una generalización de la distribución de Ber- 
noulli. 


Distribución de Poisson 
Se dice que una variable aleatoria X tiene distribución de Poisson si su FDP es: 
ed) 


SX) = 


parax=0,1,2,...,4>0 
x! 
La distribución de Poisson depende de un solo parámetro, à. Una característica distintiva de la 
distribución de Poisson es que su varianza es igual a su valor esperado, que es A. O sea, 


E(X) = var (X) =) 


Con el modelo de Poisson, como vimos en el capítulo sobre modelos de regresión no lineal, se 
construyen modelos de fenómenos raros o poco frecuentes, como el número de llamadas recibi- 
das en un lapso de 5 minutos, o el número de multas por rebasar el límite de velocidad recibidas 
en el transcurso de una hora, o el número de patentes registradas por una compañía a lo largo de 
un año. 


A.7 Inferencia estadística: estimación 


En la sección A.6 consideramos diversas distribuciones de probabilidad teóricas. A menudo co- 
nocemos o estamos dispuestos a suponer que una variable aleatoria X sigue una distribución de 
probabilidades particular, pero no conocemos el valor del (los) parámetro(s) de la distribución. 
Por ejemplo, si X sigue una distribución normal, quizá deseemos conocer el valor de sus dos 
parámetros, a saber: la media y la varianza. Para estimar las incógnitas, el procedimiento usual 
es suponer que tenemos una muestra aleatoria de tamaño n de la distribución de probabilidades 
conocida y con la información muestral estimar los parámetros desconocidos. Esto se conoce 
como problema de estimación. En esta sección consideramos este problema con mayor detalle. 
El problema de estimación se divide en dos categorías: estimación puntual y estimación por 
intervalos. 


Estimación puntual 

Para establecer las ideas, sea X una variable aleatoria con FDP f(x; 60), donde 0 es el parámetro de 
la distribución (para simplificar el análisis, suponemos sólo un parámetro desconocido; el análi- 
sis se generaliza fácilmente). Suponga que conocemos la forma funcional; es decir, conocemos 
la FDP teórica, como la distribución f, pero no el valor de 6. Por consiguiente, obtenemos una 
muestra aleatoria de tamaño n para esta FDP conocida y luego elaboramos una función de va- 
lores muestrales tal que 


Ô = f(%1,X2)...> Xn) 


proporciona una estimación del verdadero 6. 0 se conoce como un estadístico o estimador, y un 
valor numérico particular que tome el estimador, como una estimación. Observe que 0 puede 


5 Sean X1, X2, . . . , Xn n variables aleatorias con FDP conjunta f(x, X2, . . . , Xn). Si escribimos 
f(x1,X2, +, Xn) = f(x1) F(%2) +++ F(Xn) 
donde f(x) es la FDP común de cada X, se dice que x4, X2, . . . , Xn constituyen una muestra aleatoria de ta- 


maño n de una población con FDP f (xn). 
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tratarse como variable aleatoria porque es una función de la información muestral. 9 proporciona 
una regla o fórmula que indica la forma de estimar el verdadero 0. Así, si 


A 1 - 
0 = -(x1 + x2 +--+ Xn) =X 
n 


donde X es la media muestral, entonces X es un estimador del verdadero valor de la media, es 
decir, u. Si en un caso específico X = 50, esto proporciona una estimación de u. El estimador 
0 obtenido antes se conoce como estimador puntual porque proporciona sólo una estimación 
(puntual) de 8. 


Estimación por intervalos 

En lugar de obtener sólo una estimación puntual de 9, suponga que obtenemos dos estimaciones 
de 0 al construir dos estimadores Êx, X2... Xn) y Êx, X2, » - + , Xn), y se dice con alguna con- 
fianza (es decir, probabilidad) que el intervalo entre Ó, y 0, incluye el verdadero 6. Por tanto, en 
la estimación por intervalos, en contraste con la estimación puntual, se proporciona un intervalo 
de posibles valores dentro de los cuales se encuentra el verdadero 6. 

El concepto clave implícito en la estimación por intervalos es la noción de muestreo, o de 
distribución de probabilidades, de un estimador. Por ejemplo, puede demostrarse que si una 
variable X está normalmente distribuida, entonces la media muestral X también está normal- 
mente distribuida con media = yu (la verdadera media) y varianza = 0?/n, donde n es el tamaño 
de la muestra. En otras palabras, la distribución muestral, o de probabilidad, de un estimador X 
es X ~ N(, 0?/n). Como resultado, si construimos el intervalo 

a 
yn 
y decimos que hay una probabilidad de aproximadamente 0.95, o 95%, de que intervalos como 
éste incluyan la verdadera u, estamos construyendo un estimador por intervalos de u. Observe 
que el intervalo anterior es aleatorio, pues se basa en X, la cual variará de muestra en muestra. 

En general, en la estimación por intervalos construimos dos estimadores ôi y Ê, ambos fun- 

ciones de los valores muestrales de X, de forma que 


Pr(Ó<0<0)=l-=94a 0<a<l 


Es decir, podemos plantear que la probabilidad es 1 — « de que el intervalo de 0,20, contenga 
el verdadero 0. Este intervalo se conoce como intervalo de confianza de tamaño 1 — «œ para 0, 
con 1 — a como coeficiente de confianza. Si œ = 0.05, entonces 1 — œ = 0.95, lo cual significa 
que si construimos un intervalo de confianza con un coeficiente de confianza de 0.95, entonces 
en construcciones repetidas como ésta, resultantes de un muestreo repetido, acertaremos 95 de 
cada 100 veces si sostenemos que el intervalo contiene el verdadero 9. Cuando el coeficiente 
de confianza es 0.95, se dice con frecuencia que se tiene un intervalo de confianza a 95%. En 
general, si el coeficiente de confianza es 1 — q, se dice que se tiene un intervalo de confianza a 
100(1 — œ)%. Observe que q se conoce como nivel de significancia, o probabilidad de cometer 
un error tipo I. Analizamos este tema en la sección A.8. 


EJEMPLO 24 


Suponga que la distribución de las estaturas de los hombres en una población está normalmente 
distribuida con media = u pulgadas y ø = 2.5 pulgadas (6.35 centímetros). Una muestra de 
100 hombres de esta población obtenida al azar tuvo una estatura promedio de 67 pulgadas 
(170.18 centímetros). Establezca un intervalo de confianza a 95% para la estatura media (= u) 
para la población en su conjunto. 

Como ya mencionamos, X ~ N(u, 0?/n) en este caso se convierte en X ~ N(u, 2.52/100). 
En la tabla D. 1 se ve que 


= O = o 
X— 1.96 | — | < u< X+1.96— 
(m) o 


EJEMPLO 24 
(continuación) 
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cubre 95% del área bajo la curva normal. Por consiguiente, el intervalo anterior proporciona un 
intervalo de confianza a 95% para u. Al reemplazar los valores dados de X, ø y n obtenemos el 
siguiente intervalo de confianza a 95%: 


66.51 < u < 67.49 


En mediciones repetidas, como ésta, los intervalos así establecidos incluyen la verdadera u con 
una confianza de 95%. Aquí podemos mencionar un punto técnico: aunque es posible decir 
que la probabilidad de que el intervalo aleatorio [X + 1.96(0/,/n)] incluya y es de 95%, no 
podemos afirmar que hay una probabilidad de 95% de que el intervalo particular (66.51, 67.49) 
incluya u. Una vez fijado este intervalo, la probabilidad de que incluya u es de O o de 1. Lo que 
podemos decir es que si construimos 100 intervalos como éste, 95 de los 100 intervalos inclui- 
rán la verdadera u; no podemos garantizar que un intervalo particular necesariamente incluya 
a u. 


Métodos de estimación 


En términos generales, existen tres métodos de estimación de parámetros: 1) mínimos cuadrados 
(MC), 2) máxima verosimilitud (MV) y 3) método de los momentos (MOM), y su extensión, el 
método de los momentos generalizado (MMG). Se ha dedicado mucho tiempo a ilustrar el mé- 
todo de MC. En el capítulo 4 presentamos el método de MV dentro del contexto de la regresión. 
Pero el método tiene un número mucho mayor de aplicaciones. 

La idea central de MV es la función de verosimilitud. Para ilustrar lo anterior, suponga que 
la variable aleatoria X tiene una FDP f(X, 0) que depende de un solo parámetro 6. Conocemos la 
FDP (por ejemplo, la de Bernoulli o la binomial), pero no el valor del parámetro. Suponga que 
obtenemos una muestra aleatoria de n valores X. La FDP conjunta para estos n valores es: 


g(X1, X2, <.. Xn; 0) 


Como es una muestra aleatoria, escribimos la anterior FDP conjunta como el producto de la FDP 
individual de la siguiente forma: 


g(x, X2,- - -s Xn; 0) = f(x; 0) f (x2; 0) nrs Tax 0) 


La FDP conjunta tiene una doble interpretación. Si se conoce 0, la interpretamos como la proba- 
bilidad conjunta de observar los valores dados de las muestras. Por otra parte, podemos conside- 
rarla una función de O para los valores dados de x1, x2, . . . , Xn. En esta última interpretación, la 
FDP se conoce como función de verosimilitud (FV) y se expresa como: 


L(0;x1,X2)-.., Xn) = f(10)f(x%230) +++ f (Xn; 0) 


Observe el papel inverso que desempeña 0 en la función de densidad de probabilidad conjunta y 
en la función de verosimilitud. 

El estimador MV de 0 es el valor de 0 que maximiza la función de verosimilitud (muestra), 
L. Por conveniencia matemática se suele tomar el log de la función de verosimilitud, el cual se 
conoce como función logarítmica de verosimilitud (log L). Según las reglas de cálculo para la 
maximización, se diferencia la función logarítmica de similitud respecto de la variable descono- 
cida, y la derivada así obtenida se iguala a cero. El valor resultante del estimador se llama estima- 
dor de máxima verosimilitud. Se puede aplicar la condición de segundo orden de maximización 
con el objeto de asegurar que el valor obtenido sea en efecto el valor máximo. 

En caso de que haya más de un parámetro desconocido, se diferencia la función logarítmica 
de verosimilitud respecto de cada parámetro desconocido, se igualan los resultados a cero y se 
resuelven de manera simultánea a fin de obtener los valores de los parámetros desconocidos. Ya 
hicimos algo similar para el modelo de regresión múltiple (véase el capítulo 4, apéndice 4A.1). 
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EJEMPLO 25 


Suponga que la variable aleatoria X sigue la distribución de Poisson y tiene una media igual a A. 
Suponga que xı, x2, . . . , Xn son variables aleatorias independientes con distribución de Poisson 
y cuya media es à. Suponga que queremos calcular el estimador MV de A. La función de vero- 
similitud aquí es: 


EAN ATA ej 
xı! X2! Xo 


rr) 


emy Exi 
xa bxa!- >> Xp! 


La anterior es más bien una expresión difícil de manejar, pero si tomamos su logaritmo, se con- 
vierte en: 


altri ad) == m+ dx log A — log c 


donde logc = ] Į x;!. Al diferenciar la expresión anterior respecto de à obtenemos (—n + (5 xi)/A). 
Si igualamos esta última expresión a cero, tenemos Am = (J xi)/n = X, la cual es el estimador 
MV del parámetro desconocido A. 


El método de los momentos 


Ya dimos un vistazo al MOM en el ejercicio 3.4 con el llamado principio de analogía, en el cual 
los momentos muestrales intentan duplicar las propiedades de sus contrapartes poblacionales. El 
MMG, una generalización del MOM, se populariza cada vez más, pero no en su nivel básico. Por 
tanto, no se estudia aquí. 

Las propiedades estadísticas deseables se encuentran en dos categorías: propiedades de mues- 
tra pequeña o muestra finita y propiedades de muestra grande o asintóticas. En estos dos conjun- 
tos de propiedades está implícita la noción de que un estimador tiene una distribución muestral 
o de probabilidad. 


Propiedades de las muestras pequeñas 

Insesgamiento 

Se dice que un estimador Ê es un estimador insesgado de 6 si el valor esperado de Ê es igual al 
verdadero 0; es decir, 


E(Ó)=0 


E(Ó6)-0=0 


Si no se mantiene esta igualdad, decimos que el estimador es sesgado y el sesgo se calcula 
como 


sesgo(Ó) = E(0) — 0 


Desde luego, si Eô) = 0 —es decir, Ê es un estimador insesgado—, el sesgo es cero. 

La situación se ilustra geométricamente en la figura A.8. A propósito, observe que el inses- 
gamiento es una propiedad del muestreo repetido, no de una muestra dada: mantenemos fijo el 
tamaño de la muestra, obtenemos diversas muestras y cada vez conseguimos una estimación del 
parámetro desconocido. Se espera que el valor promedio de estas estimaciones sea igual al ver- 
dadero valor si el estimador es insesgado. 


Varianza mínima 


Se dice que 0; es un estimador de varianza mínima de 6 si la varianza de 0, es menor o igual que 
la varianza de 02, que es cualquier otro estimador de 0. La figura A.9 muestra geométricamente 


FIGURA A.8 
Estimadores sesgados e 
insesgados. 


FIGURA A.9 
Distribución de tres 
estimadores de 6. 
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E(0,)=0 E(0,)+0 


0 E(63) 


tres estimadores de 0, a saber: Ôr, Ê» y 03, y sus distribuciones de probabilidad. Como se ve, la 
varianza de 0, es menor que la de Êi o la de 0». Por tanto, si suponemos sólo estos tres estimadores 
posibles, en este caso by es un estimador de varianza mínima. Pero observe que by es un estimador 
sesgado (¿por qué?). 


Mejor estimador insesgado o eficiente 


Si 0, y 0, son dos estimadores insesgados de O y la varianza de 0 es menor o igual que la varianza 
de Ó,, entonces 6, es un estimador insesgado de varianza mínima, mejor insesgado o eficiente. 

Así, en la figura A.9, de los dos estimadores insesgados Êi y Ê», Êi es el estimador mejor insesgado 
o eficiente. 


Linealidad 


Se dice que un estimador 9 es un estimador lineal de 8 si es una función lineal de las observacio- 
nes muestrales. Así, la media muestral definida como 


= l 1 
= Y X; = -01 +x ++ xn) 
n n 
es un estimador lineal porque es una función lineal de los valores de X. 


Mejor estimador lineal insesgado (MELI) 


S10 es lineal, es insesgado y tiene varianza mínima en la clase de todos los estimadores lineales e 
insesgados de 0, se denomina el mejor estimador lineal insesgado, o MELI, para abreviar. 


Estimador del error cuadrático medio (ECM) mínimo 
El ECM de un estimador Ê se define como 


ECM(Ó) = E(Ó — 0) 
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FIGURA A.10 
Equilibrio entre sesgo y 
varianza. 


Esto contrasta con la varianza de 0, la cual se define como 
var (ô) = E[Ó6 — E(0)P? 


La diferencia entre los dos es que la var( ô ) mide la dispersión de la distribución de Ó alrededor 
de su media o valor esperado, mientras que ECM(0) mide la dispersión alrededor del verdadero 
valor del parámetro. La relación entre los dos es la siguiente: 


ECM(Ó) = E(Ó — 0)? 
= E[Î — E(0) + E(Ó) — 0F 
= E[Î — E(Ô)P + EĻE(Ô) — 0P +2E[6 — E(Ó)][£(6) — 9] 
= E[Î — E(ô)P + E[£(6) — 0P porque el último término es cero? 
= var (Ô) + sesgo(0)? 
= varianza de Ó más el sesgo al cuadrado 


Desde luego, si el sesgo es cero, ECM(Ô) = var(ĝ). 

El criterio del ECM mínimo consiste en seleccionar un estimador cuyo ECM sea el menor en 
un conjunto de estimadores comparables. Pero observe que aunque se encontrara tal estimador, 
hay un costo: para obtener varianza mínima quizá sea necesario aceptar algún sesgo. En forma 
geométrica, la situación es como se indica en la figura A.10. En ella, 0, está ligeramente sesgado, 
pero su varianza es menor que la del estimador insesgado Ó,. En la práctica, sin embargo, se em- 
plea el criterio del ECM mínimo cuando el criterio de mejor insesgado es incapaz de producir 
estimadores con varianzas más pequeñas. 


Propiedades de las muestras grandes 

Con frecuencia sucede que un estimador no satisface una o más de las propiedades estadísticas 
deseables en muestras pequeñas. Pero, a medida que el tamaño de la muestra aumenta indefini- 
damente, el estimador posee diversas propiedades estadísticas deseables. Estas propiedades se 
conocen como propiedades de muestra grande, o propiedades asintóticas. 


Densidad de probabilidad 


Estimadores de 
0 


6 El último término puede escribirse como 2([£(9)]? — [£(0)]? — 0 E (Ô) + 0E(0)) = 0. Observe también que 
E[£(Ó) — 01? = [E (ĝ) — 07?, pues el valor esperado de una constante es tan sólo la constante misma. 


FIGURA A.11 
Distribución de 9 a 
medida que aumenta el 
tamaño de la muestra. 
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Insesgamiento asintótico 
Se dice que un estimador 0; es un estimador asintóticamente insesgado de 6 si 


lím E(Ó,) =0 
n—>00 


donde Ô, significa que el estimador está basado en un tamaño de muestra n, y donde lim quiere 
decir límite y n > œ significan que n aumenta de manera indefinida. En palabras, Ê es un estima- 
dor asintóticamente insesgado de 8 si su valor esperado, o media, se aproxima al verdadero valor 
a medida que el tamaño de la muestra crece cada vez más. Como ejemplo, considere la siguiente 
medida de varianza muestral de una variable aleatoria X: 


se 4 xy 


n 


E(S%) = el = =) 
n 


donde o? es la verdadera varianza. Es obvio que en una muestra pequeña S? está sesgado, pero, 
a medida que n aumenta indefinidamente, £(S?) se aproxima a la verdadera o°; por tanto, éste es 
asintóticamente insesgado. 


Puede demostrarse que 


Consistencia 
Se dice que Ê es un estimador consistente si se aproxima al verdadero valor de O a medida que 
crece el tamaño de la muestra. La figura A.11 ilustra esta propiedad. 

En esta figura tenemos la distribución de Ê basada en tamaños muestrales de 25, 50, 80 y 
100. Como muestra la figura, Ê basada en n= 25 está sesgado, pues su distribución muestral no 
está centrada en el verdadero 6. Pero a medida que n aumenta, la distribución de Ê no sólo tiende a 
centrarse más en O (es decir, Ô se hace menos sesgada), sino que su varianza también se reduce. Si 
en el límite (es decir, cuando n aumenta indefinidamente) la distribución de Ô se reduce al punto 
0, es decir, si la distribución de Ô tiene cero dispersión o varianza, se dice que Ê es un estimador 
consistente de 0. 


je? f(6) n=100 


¿A n=80 


_ TO n=50 


_—1(Ó)m=25 


Densidad de probabilidad 


D 
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Más formalmente, se dice que un estimador Ó es un estimador consistente de 0 si la probabi- 
lidad de que el valor absoluto de la diferencia entre O y 9 es menor que ô (una pequeña cantidad 
positiva arbitraria) y se aproxima a la unidad. Simbólicamente, 


lím P(IÓ-0|<S8j=1  38>0 
n—>00 


donde P significa probabilidad. Esto suele expresarse como 


plím ô =Q 
n—>00 
donde plím significa límite de la probabilidad. 

Observe que las propiedades de insesgamiento y consistencia son conceptualmente muy di- 
ferentes. La propiedad de insesgamiento puede mantenerse para cualquier tamaño de muestra, 
mientras que la de consistencia es estrictamente una propiedad de muestras grandes. 

Una condición suficiente para la consistencia es que el sesgo y la varianza tiendan a cero a 
medida que el tamaño de la muestra aumenta indefinidamente.” Otra condición suficiente para la 
consistencia es que ECM(Ó ) tienda a cero a medida que n aumenta de manera indefinida. (Para 
ECM(Ó), consulte el análisis anterior.) 


EJEMPLO 26 


Sea X1, X2, . . . , Xn una muestra aleatoria de una distribución con media y y varianza 0?. De- 
muestre que la media muestral X es un estimador consistente de y. 

Por estadística elemental se sabe que E(X) = u y var(X) = 0?/n. Como E(X) = u sin importar 
el tamaño de la muestra, ésta es insesgada. Además, a medida que n aumenta indefinidamente, 
var(X) tiende a cero. Por tanto, X es un estimador consistente de u. 


Es importante anotar las siguientes reglas sobre el límite de la probabilidad. 


1. Invarianza (propiedad de Slutsky). Si Ó es un estimador consistente de 0 y si h(Ó) es cualquier 
función continua de 0, entonces 


plim (0) = h(0) 


n—>00 


Esto significa que si Ê es un estimador consistente de 6, entonces 1/ Ê es también un estimador 
consistente de 1/09 y que log(9) es también un estimador consistente de log(0). Observe que 
esta propiedad no se cumple para el operador esperanza E; es decir, si Ê es un estimador in- 
sesgado de 0 [es decir, E(0) = = 6], no es cierto que 1 Jô sea un estimador insesgado de 1/0; es 
decir, E(1/0) 4 1/E(0) % 1/0. 
2. Si b es una constante, entonces 
plim b = b 
n—>00 
Es decir, el límite de la probabilidad de una constante es la constante misma. 
3. Si 6| y 0, son estimadores consistentes, entonces 
plím (ô, + 0») = plím ĝi + plim 0, 


plím (ô ô») = plím Êi plím Ó, 
êi plim Êi 
plim = A 
0, plím 0, 


7 Más técnicamente, lim», o E (ôn) = 0 y lim, æ var (Ên) = 0 
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En general, las últimas dos propiedades no se cumplen para el operador de esperanza E. Por 
tanto, E(01/0,) Á E(0)/(6)). En forma similar, E(010») A E(Ó)E(0,). Sin embargo, si ôi y 0, 
están distribuidos en forma independiente, E (0,0,) = =E (ô) E (02), como ya mencionamos. 


Eficiencia asintótica 

Sea Ó un estimador de 0. La varianza de la distribución asintótica de Ê se denomina varianza 
asintótica de Ó. Si Ê es consistente y su varianza asintótica es menor que la varianza asintótica de 
todos los demás estimadores consistentes de 0, Ê se llama asintóticamente eficiente. 


Normalidad asintótica 


Se dice que un estimador Ê está normalmente distribuido asintóticamente si su distribución mues- 
tral tiende a aproximarse a la distribución normal a medida que el tamaño de la muestra n au- 
menta de manera indefinida. Por ejemplo, la teoría estadística muestra que si X1, X2, . . . , Xn son 
variables independientes normalmente distribuidas con la misma media yu y la misma varianza 
0?, la media muestral X está también normalmente distribuida con media u y varianza 0?/n en 
muestras pequeñas y en muestras grandes. Pero si las X; son independientes con media u y va- 
rianza o°, pero no necesariamente provienen de la distribución normal, entonces la media mues- 
tral X está normalmente distribuida en forma asintótica con media y y varianza 0?/n; es decir, a 
medida que el tamaño de la muestra n aumenta indefinidamente, la media muestral tiende a estar 
normalmente distribuida con media yu y varianza 0?/n. Ése es, en realidad, el teorema central del 
límite ya analizado. 


A.8 Inferencia estadística: pruebas de hipótesis 


La estimación y las pruebas de hipótesis constituyen ramas gemelas de la inferencia estadística 
clásica. Una vez examinado el problema de la estimación, consideramos brevemente el problema 
de pruebas de hipótesis estadísticas. 

El problema de pruebas de hipótesis puede plantearse de la siguiente manera: suponga que 
tenemos una va X con una FDP conocida f(x; 0), donde 0 es el parámetro de la distribución. 
Después de obtener una muestra aleatoria de tamaño n, obtenemos el estimador puntual 0. Como 
pocas veces conocemos el verdadero 0, planteamos la pregunta: ¿es “compatible” el estimador 0 
con algún valor de 6 hipotético, por ejemplo, 9 = 6*, donde 6* es un valor numérico específico 
de 0? En otras palabras, ¿pudo la muestra provenir de FDP f(x; 0) = 0*? En el lenguaje de prue- 
bas de hipótesis, 9 = 6* se denomina hipótesis nula (sostenida) y suele denotarse por Ho. La 
hipótesis nula se prueba contra una hipótesis alternativa, denotada por A, la cual, por ejemplo, 
puede plantear que 9 Æ 6*. (Nota: En algunos libros de texto, Hp y H se designan por A; y Ha, 
respectivamente.) 

La hipótesis nula y la hipótesis alternativa pueden ser simples o compuestas. Una hipótesis se 
denomina simple si especifica el (los) valor(es) del (los) parámetro(s) de la distribución; de otra 
forma, se denomina hipótesis compuesta. Así, si X ~ N(u, 0?) y declaramos que 


Ho: pH =15 y o=2 
es una hipótesis simple, mientras que 
Ho: pH =15 y o>2 
es una hipótesis compuesta, porque aquí el valor de o no está especificado. 
Para probar la hipótesis nula (es decir, para probar su validez), utilizamos la información 


muestral con el fin de obtener lo que se conoce como estadístico de prueba. Con mucha fre- 
cuencia, este estadístico de prueba resulta ser el estimador puntual del parámetro desconocido. 
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Entonces, tratamos de averiguar la distribución muestral o probabilística del estadístico de prueba 
y utilizar el método de intervalos de confianza o de pruebas de significancia para probar la 
hipótesis nula. Ilustraremos este procedimiento más adelante. 

Para fijar las ideas, considere de nuevo el ejemplo 23, relacionado con la estatura (X) de los 
hombres en una población. Se nos informó que 


X; ~ N(n, 0?) = N(p, 2.5?) 
£=01 n= 100 
Supongamos que 
Ho: p = u" =69 
Hı: u #4 69 


La pregunta es: ¿pudo la muestra con ¥ = 67, el estadístico de prueba, provenir de la población 
con el valor de la media de 69? Por intuición, no podemos rechazar la hipótesis nula si X está “lo 
bastante cerca” de u“; de lo contrario, podemos rechazarla en favor de una hipótesis alternativa. 
Pero ¿cómo decidir que X está “lo bastante cerca” de u*? Podemos adoptar dos métodos: 1) in- 
tervalos de confianza y 2) pruebas de significancia, ambos conducentes a conclusiones idénticas 
en cualquier aplicación específica. 


Método del intervalo de confianza 
Como X; ~ N(u, o°), sabemos que el estadístico de prueba X está distribuido como 


X ~ N(u, 0?/m) 


Como conocemos la distribución de probabilidades de X, ¿por qué no establecer, por ejemplo, un 
intervalo de confianza de 100(1 — œ) para u basada en X y ver si este intervalo incluye u = u*? 
Si es así, no rechazamos la hipótesis nula; si no lo es, la rechazamos. Así, si œ = 0.05, tendremos 
un intervalo de confianza a 95%, y si este intervalo de confianza incluye u“, no rechazamos la 
hipótesis nula, pues es probable que 95 de 100 intervalos así construidos incluyan a u*. 


El procedimiento es el siguiente: como X ~ N(u, 0?/n), se deduce que 


q E-4 N(0, 1) 
1 o/yn y 
es decir, una variable normal estándar. Entonces, de la tabla de distribución normal, sabemos 
que 
Pr(-1.96 < Z; < 1.96) = 0.95 

Es decir, 

X-u 

Pr | —1.96 < < 1.96 | = 0.95 
o/yn 


lo cual, al reordenar términos, da 


yn 


Éste es un intervalo de confianza a 95% para u. Una vez construido este intervalo, la prueba de 
la hipótesis nula es simple. Todo lo que debemos hacer es ver si u = u* se encuentra en este 
intervalo. Si se encuentra, podemos aceptar la hipótesis nula; si no se encuentra, la podemos 
rechazar. 


= O = 
Pr |X — 1.96— < u <X + 1.96 = 0.95 
e| ga ne l 


FIGURA A.12 
Intervalo de confianza a 
95% para u. 
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U= 69 se encuentra en esta región 


95% 


Región crítica región de aceptación Región crítica 


De regreso con el ejemplo 24, establecimos ya un intervalo de confianza a 95% para u, 
que es 


66.51 < u < 67.49 


Como es obvio, este intervalo no incluye u = 69. Por consiguiente, rechazamos la hipótesis 
nula de que el verdadero u es 69 con un coeficiente de confianza de 95%. La situación se ilustra 
geométricamente en la figura A.12. 

En el lenguaje de pruebas de hipótesis, el intervalo de confianza que construimos se denomina 
región de aceptación, y el(las) área(s) por fuera de la región de aceptación, región(es) crítica(s), 
o región(es) de rechazo, de la hipótesis nula. Los límites inferior y superior de la región de 
aceptación (que la delimitan con las regiones de rechazo) se denominan valores críticos. En este 
lenguaje de prueba de hipótesis, si el valor hipotético se encuentra dentro de la región de acepta- 
ción, podemos aceptar la hipótesis nula; de lo contrario, la podemos rechazar. 

Es importante anotar que, en la decisión de rechazar o no Ho, es probable que se cometan dos 
tipos de errores: 1) se puede rechazar Hp cuando es, en realidad, cierta; éste se denomina un error 
tipo I (así, en el ejemplo anterior, X = 67 pudo provenir de la población con un valor medio de 
69), o 2) se puede aceptar Ho cuando, en realidad, es falsa; este error se llama error tipo II. Por 
consiguiente, una prueba de hipótesis no establece el valor de la verdadera u: tan sólo propor- 
ciona un mecanismo para decidir si podemos actuar como si u = u*. 


Errores tipo I y tipo II 
Esquemáticamente, tenemos 


Estado de naturaleza 


Decisión Ho es verdadera Ho es falsa 
Rechazar Error tipo | No hay error 
No rechazar No hay error Error tipo II 


Lo ideal sería reducir los errores tipo 1 y tipo II. Pero, por desgracia, con cualquier tamaño de 
muestra dado, no es posible reducir ambos errores de manera simultánea. El enfoque clásico 
de este problema, comprendido en el trabajo de Neyman y Pearson, es suponer la probabilidad de 
que un error tipo I sea más grave en la práctica que un error tipo II. Por consiguiente, debe- 
mos tratar de mantener la probabilidad de cometer un error tipo I en un nivel relativamente bajo, 
como 0.01 o 0.05, y luego tratar de reducir al máximo la probabilidad de incurrir en un error 
tipo II. 
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En la bibliografía, la probabilidad de un error tipo I se representa con œ y se denomina nivel 
de significancia, y la probabilidad de un error tipo II se representa con £. La probabilidad de no 
cometer un error tipo II se denomina potencia de la prueba. Para expresarlo de otra manera: la 
potencia de una prueba es su capacidad para rechazar una hipótesis nula falsa. El método clásico 
de pruebas de hipótesis es fijar œ en niveles como 0.01 (1%) o 0.05 (5%) y luego tratar de maxi- 
mizar la potencia de la prueba; es decir, reducir £. 

Es importante que el lector comprenda el concepto de potencia de una prueba, lo cual se ex- 
plica mejor con un ejemplo.* 

Sea X ~ N(u, 100); es decir, X está normalmente distribuida con una media u y una varianza 
100. Suponga que œ = 0.05 y que tenemos una muestra de 25 observaciones, la cual da una 
media muestral de Y. Suponga además que tenemos la hipótesis de que Ho: u = 50. Como X 
está normalmente distribuida, sabemos que la media muestral está también normalmente distri- 
buida como: X ~ M(u,100/25). Por tanto, según la hipótesis nula establecida de que u = 50, el 
intervalo de confianza de 95% para X es (u + 1.96(/100/25) = u + 3.92, es decir, de 46.08 a 
53.92. En consecuencia, la región crítica consiste en todos los valores de Y menores que 46.08 o 
mayores que 53.92, Es decir, rechazamos la hipótesis nula de que la verdadera media es 50 si un 
valor de la media muestral está por debajo de 46.08 o por arriba de 53.92, 

Pero ¿cuál es la probabilidad de que X esté en la(s) anterior(es) región(es) crítica(s), si la 
verdadera y tiene un valor distinto de 50? Suponga que existen tres hipótesis: u = 48, u = 52 
y u = 56. Si cualquiera de ellas es cierta, será la verdadera media de la distribución de X. El 
error estándar es invariante para las tres alternativas, pues se sigue suponiendo que a? toma el 
valor de 100. 

Las áreas sombreadas de la figura A.13 muestran las probabilidades de que X se encuentre en 
la región crítica, si cada hipótesis alternativa es verdadera. Como se puede verificar, dichas pro- 


FIGURA A.13 Distribución de X cuando N = 25,0 = 10 y u = 48, 50, 52 o 56. Según la hipótesis H: u = 50, la región 
crítica con œ = 0.05 es X < 46.1 y -X > 53.9. El área sombreada indica la probabilidad de que X se 
encuentre en la región crítica. Esta probabilidad es: 

0.17 si u = 48 0.17 si y = 52 
0.05 si u = 50 0.85 si u = 56 


u =48 l | | | J | | J 

44 46 48 50 52 54 56 58 60 62 

H: u = 50 1 A JE j 
pal 24 
sic 24 


8 El siguiente análisis y las cifras se basan en la obra de Helen M. Walker y Joseph Lev, Statistical Inference, 
Holt, Rinehart y Winston, Nueva York, 1953, pp. 161-162. 


FIGURA A.14 
Función potencia de 

la prueba de hipótesis 
u = 50 cuando N = 25, 
o = 10 y œ = 0.05. 
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Probabilidad de rechazar H 


pi l J J l J l i | | 
40 42 44 46 48 H 52 54 56 58 60 


Escala de u 


babilidades son 0.17 (para u = 48), 0.05 (para u = 50), 0.17 (para u = 52) y 0.85 (para u = 56). 
Como se observa a partir de esta figura, siempre que el verdadero valor de y difiera sustancial- 
mente respecto de la hipótesis en consideración (que aquí es u = 50), la probabilidad de rechazar 
la hipótesis es alta, pero cuando el verdadero valor no es muy distinto del valor dado según la 
hipótesis nula, la probabilidad de rechazo es pequeña. Por intuición, esto debe ser sensato si 
las hipótesis nula y alternativa están muy próximas entre sí. 

Esto resulta más claro si tiene en cuenta la figura A.14, conocida como gráfica de la función 
potencia; asimismo, la curva que ahí se ilustra se conoce como curva potencia. 

El lector ya se habrá dado cuenta de que el coeficiente de confianza (1 — œ) analizado antes 
es tan sólo uno menos la probabilidad de cometer un error tipo I. Por tanto, un coeficiente de 
confianza de 95% significa que se está preparado para aceptar, como máximo, una probabilidad 
de 5% de cometer un error tipo I —no deseamos rechazar la hipótesis verdadera más de 5 veces 
de cada 100—. 


Valor p, o nivel exacto de significancia 


En lugar de preseleccionar q en niveles arbitrarios, como 1, 5 o 10%, podemos obtener el valor p 
(probabilidad), o nivel exacto de significancia de un estadístico de prueba. El valor p se define 
como el nivel de significancia más bajo al cual puede rechazarse una hipótesis nula. 

Suponga que en una aplicación que considera 20 gl obtenemos un valor £ de 3.552. Ahora, 
el valor p, o la probabilidad exacta, de obtener un valor £ de 3.552 o mayor se ve en la tabla D.2 
como 0.001 (a una cola) o 0.002 (a dos colas). Podemos decir que el valor £ observado de 3.552 
es estadísticamente significativo en el nivel de 0.001 o 0.002, según se emplee una prueba de una 
o de dos colas. 

Diversos paquetes estadísticos imprimen el valor p de los estadísticos de prueba estimados. 
Por consiguiente, se aconseja al lector dar el valor p siempre que sea posible. 


Tamaño de la muestra y pruebas de hipótesis 


En datos provenientes de encuestas que comprenden cientos de observaciones, la hipótesis nula 
se rechaza, al parecer, con mayor frecuencia que en las muestras pequeñas. Aquí vale la pena citar 
a Angus Deaton: 


A medida que el tamaño de la muestra aumenta, y siempre que se siga un procedimiento de esti- 
mación consistente, las estimaciones se aproximarán más a la verdad y estarán menos dispersos 
alrededor de ésta, de modo que las discrepancias que no pueden detectarse en una muestra de tamaño 
pequeño provocan rechazo en muestras grandes. Las muestras de tamaño grande son como un poder 
mayor de resolución en un telescopio; las características que no son visibles a la distancia se vuelven 
cada vez más nítidas a medida que aumenta la amplificación.’ 


2 Angus Deaton, The Analysis of Household Surveys: A Microeconometric Approach to Development Policy, The 
Johns Hopkins University Press, Baltimore, 2000, p. 130. 
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FIGURA A.15 


Distribución del estadís- 
tico Z. 


Según Leamer y Schwartz, Deaton propone ajustar los valores críticos estándar de las pruebas 
F y x? como sigue: Rechace la hipótesis nula cuando el valor F calculado sea superior al loga- 
ritmo del tamaño muestral, esto es, In, y cuando el estadístico xX calculado para la restricción q 
sea superior a qln, donde l es el logaritmo natural y n es el tamaño de la muestra. Estos valores 
críticos se conocen como valores críticos de Leamer-Schwarz. 

En el ejemplo de Deaton, si n = 100, la hipótesis nula se rechazaría sólo si el valor F calcu- 
lado fuera mayor que 4.6, pero si n = 10 000, la hipótesis nula se rechazaría cuando el valor F 
calculado fuera superior a 9.2. 


Método de la prueba de significancia 
Recuerde que 


X-u 

Zi = ——= ~ N(0, 1) 
o/yn 
En cualquier aplicación dada, X y n se conocen (o se estiman), pero los verdaderos u y o no se 
conocen. Sin embargo, si se especifica o y suponemos (según Ho) que u = u*, un valor numérico 
específico, entonces Z; puede calcularse directamente y podemos consultar la tabla de la distribu- 
ción normal para encontrar la probabilidad de obtener el valor Z calculado. Si esta probabilidad 
es baja, por ejemplo, menor que 5% o que 1%, podemos rechazar la hipótesis nula: si la hipótesis 
fuera cierta, la posibilidad de obtener el valor Z particular debería ser muy alta. Ésta es la idea 
general del método de pruebas de significancia para probar hipótesis. La idea clave es el estadís- 
tico de prueba (aquí el estadístico Z) y su distribución de probabilidades según el valor supuesto 
u = u*. Apropiadamente, en el presente caso, la prueba se conoce como prueba Z, pues utiliza- 
mos el valor (normal estandarizado) de Z. 
Al considerar de nuevo el ejemplo, si u = u* = 69, el estadístico Z se convierte en 


=P 
~ ofyn 
67 — 69 
2.5/4/100 


= -2/0.25 =-38 


En la tabla de la distribución normal D.1 se ve que la probabilidad de obtener ese valor de Z es 
extremadamente baja. (Vota: La probabilidad de que Z exceda 3 o —3 es de alrededor de 0.001. 
Por consiguiente, la probabilidad de que Z exceda 8 es aún menor.) Por tanto, podemos rechazar 
la hipótesis nula de que u = 69; con este valor, la probabilidad de obtener una X de 67 es extre- 
madamente baja. Así, dudamos que la muestra proviniese de una población con un valor medio 
de 69. La situación se ilustra en forma diagramática en la figura A.15. 


Z =-8 se encuentra 
en esta región 


2.5% 2.5% 


Nx 


-1.96 0 1.96 


Referencias 
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En el lenguaje de pruebas de significancia, cuando decimos que una prueba (estadística) es 
significativa, por lo general nos referimos a que podemos rechazar la hipótesis nula. Y el estadís- 
tico de prueba se considera significativo si la probabilidad de obtenerlo es igual o menor que a, 
es decir, la probabilidad de cometer un error tipo I. Así, si æ = 0.05, sabemos que la probabilidad 
de obtener un valor Z de —1.96 o 1.96 es de 5% (o 2.5% en cada cola de la distribución normal 
estandarizada). En el ejemplo ilustrativo, Z era —8. Por tanto, la probabilidad de obtener ese valor 
de Z es muy inferior a 2.5%, muy por debajo de la probabilidad previamente especificada de co- 
meter un error tipo I. Es por esto que el valor calculado de Z = —8 es estadísticamente significa- 
tivo; es decir, rechazamos la hipótesis nula de que la verdadera u* es 69. Por supuesto, llegamos 
a la misma conclusión con el enfoque de intervalos de confianza para pruebas de hipótesis. 

Resumimos ahora los pasos comprendidos en las pruebas de hipótesis estadísticas: 


Paso 1. Postular la hipótesis nula Hp y la hipótesis alternativa H; (por ejemplo, Ho: u = 69 
y Hı: u Æ 69). 
Paso 2. Seleccionar el estadístico de prueba (por ejemplo, X). 


Paso 3. Determinar la distribución de probabilidades del estadístico de prueba (por ejemplo, 
X ~ Mu,o?/n). 

Paso 4. Seleccionar el nivel de significancia (es decir, la probabilidad de cometer un error 
tipo I) a. 

Paso 5. Con la distribución de probabilidades del estadístico de prueba, construir un in- 
tervalo de confianza a 100(1 — 09%. Si el valor del parámetro según la hipótesis nula (por 
ejemplo, u = u* = 69) se encuentra en esta región de confianza (la región de aceptación), 
no se rechaza la hipótesis nula; pero si se encuentra por fuera de este intervalo (es decir, en 
la región de rechazo), debe rechazar la hipótesis nula. Tenga en mente que al no rechazar o 
rechazar la hipótesis nula, corre el riesgo de estar equivocado « por ciento de las veces. 


Para los detalles del material cubierto en este apéndice, el lector puede consultar las siguientes 
referencias: 


Hoel, Paul G., Introduction to Mathematical Statistics, 4a. ed., John Wiley & Sons, Nueva York, 
1974. Este libro proporciona una introducción relativamente sencilla a diversos aspectos de la 
estadística matemática. 

Freund, John E. y Ronald E. Walpole, Mathematical Statistics, 3a. ed., Prentice Hall, Englewood 
Cliffs, Nueva Jersey, 1980, Otro libro de texto introductorio en estadística matemática. 

Mood, Alexander M., Franklin A. Graybill y Duane C. Boes, Introduction to the Theory of Sta- 
tistics, 3a. ed., McGraw-Hill, Nueva York, 1974. Es una introducción completa a la teoría 
estadística pero un poco más difícil que los dos libros anteriores. 

Newbold, Paul, Statistics for Business and Economics, Prentice Hall, Englewood Cliffs, Nueva 
Jersey, 1984. Una introducción no matemática completa a la estadística con muchos proble- 
mas resueltos. 


Apéndice 


Nociones básicas 
de álgebra matricial 


En este apéndice se presentan nociones esenciales del álgebra matricial requeridas para entender 
el apéndice C y parte del material del capítulo 18. El análisis no es riguroso y no se dan pruebas. 
El lector puede consultar las pruebas y mayores detalles en las referencias. 


B.l Definiciones 


Matriz 

Una matriz es un ordenamiento rectangular de números o de elementos arreglados en renglones 
y en columnas. Más precisamente, una matriz de orden, o de dimensión, M por N (escrita como 
M x N) es un conjunto de M x N elementos ordenados en M renglones y N columnas. Por tanto, 
si las letras en negritas denotan matrices, una matriz A de (M x N) se expresa como 


411 412 413 AIN 

421 022 423 a2N 
A= [a;] =] Y 

amI AM2 4M3 AMN 


donde a;; es el elemento que aparece en el i-ésimo renglón y la j-ésima columna de A, y donde 
[a;;] es una expresión abreviada para la matriz A cuyo elemento característico es a;;. El orden o 
dimensión de una matriz —es decir, el número de filas y columnas— suele escribirse debajo de 
la matriz como referencia sencilla. 


LS 7 
2 3 5 
A= le 1 ] m z a 


Escalar 
Un escalar es un número (real). En otro caso, un escalar es una matriz 1 x 1. 


Vector columna 
Una matriz que consta de M filas y sólo una columna se denomina vector columna. Con las letras 
minúsculas en negritas que denotan vectores, un ejemplo de vector columna es 


> 
xX 
OUAU 
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Vector renglón 

Una matriz que consta de sólo un renglón y N columnas se denomina vector renglón. 
x=[1 2 5 —4] y =[0 5 -9 6 10] 
1x4 1x5 

Trasposición 

La traspuesta de una matriz A de M x N, denotada por A’ (se lee A prima o A traspuesta), es 


una matriz N x M obtenida mediante el intercambio de renglones y columnas de A; es decir, el 
¡-ésimo renglón de A se convierte en la ¡-ésima columna de A”. Por ejemplo, 


4 5 
1 _ 14 3 5 
A 3 1 ia 1 al 
5.0 


Como un vector es un tipo especial de matriz, la traspuesta de un vector renglón es un vector 
columna, y la de un vector columna un vector renglón. Por tanto, 


x=|5 y x=[4 5 6] 
Utilizaremos la convención de indicar los vectores renglón mediante el símbolo de primo. 


Submatriz 


Con cualquier matriz A de M x N, si se borran todos los renglones y columnas de A menos r ren- 
glones y s columnas, la matriz resultante de orden r x s se denomina submatriz de A. Así, si 


3 577 
A=|8 21 
x 3 2 1 


y borramos el tercer renglón y la tercera columna de A, obtenemos 


de s 
-u E | 


que es una submatriz de A de orden 2 x 2. 


B.2 Tipos de matrices 


Matriz cuadrada 
Una matriz con el mismo número de renglones y de columnas se denomina matriz cuadrada. 


3.558 
3 4 
A= | 5 ] B=|7 3 1 
4550 
Matriz diagonal 
Una matriz cuadrada que posee al menos un elemento diferente de cero sobre la diagonal princi- 


pal (que parte de la esquina superior izquierda hasta la esquina inferior derecha), y con valores 
restantes de cero, se denomina matriz diagonal. 


-2 0 0 

2 0 
ael i L Taa 
* 5 0 0 1 
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Matriz escalar 

Una matriz diagonal cuyos elementos diagonales son todos iguales se denomina matriz esca- 
lar. Un ejemplo es la matriz de varianza-covarianza de las perturbaciones poblacionales del mo- 
delo clásico de regresión lineal de la ecuación (C.2.3), a saber: 


o 0 0 0 0 
0 oœ 0 0 0 
var-cov (u) =| 0 0 æ 0 0 
0 0 0 0? 0 
0 0 0 0 æ 


Matriz identidad o unitaria 


Una matriz diagonal cuyos elementos diagonales son todos 1 se denomina matriz identidad 
o unitaria y se denota por I. Es una clase especial de matriz escalar. 


= E E 
D m O 5G 
= O o oO 


1 

I 0 
4x4 0 
0 


Matriz simétrica 


Una matriz cuadrada cuyos elementos por encima de la diagonal son imágenes reflejo de los ele- 
mentos por debajo de la diagonal principal se denomina matriz simétrica. Además, una matriz 
simétrica es tal que su traspuesta es igual a sí misma; es decir, A = A’. Es decir, el elemento a; j 
de A es igual al elemento a;; de A”. Un ejemplo es la matriz de varianza-covarianza de la ecuación 
(C.2.2). Otro ejemplo es la matriz de correlación de (C.5.1). 


Matriz nula 
Una matriz cuyos elementos son todos cero se denomina matriz nula y se denota por 0. 


Vector nulo 


Un vector renglón o columna cuyos elementos son todos cero se denomina vector nulo y se 
denota también por 0. 


Matrices iguales 


Se dice que dos matrices A y B son iguales si son del mismo orden y sus elementos correspon- 
dientes son iguales; es decir, a;; = b;; para todo i y j. Por ejemplo, las matrices 


3 4 5 3 4 5 
A=|0 -1 2 y B=|0 -1 2 

5 1 3 5 1 3 
son iguales; es decir, A = B 


B.3 Operaciones matriciales 


Adición de matrices 
Sea A = [a;;] y B = [b;;]. Si A y B son del mismo orden, definimos la adición de matrices como 


A+B=C 
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donde C es del mismo orden que A y B y se obtiene como c;; = aj; + b;; para todo i y j; es decir, 
C se obtiene al sumar los elementos correspondientes para la adición. Por ejemplo, si 


2345 1 0 -1 3 
All y ER $ 


y C =A + B, entonces 


Resta de matrices 

La resta de matrices sigue el mismo principio que la adición de matrices, excepto que C = 
A — B; es decir, se restan los elementos de B de los elementos correspondientes de A para obte- 
ner C, en tanto A y B sean del mismo orden. 


Multiplicación por escalar 


Para multiplicar una matriz A por un escalar 4 (un número real), se multiplica cada elemento de 
la matriz por A: 


AA = [Aa;;] 
Por ejemplo, si à = 2 y 


entonces 


Multiplicación de matrices 


Sea A M x Ny BN x P. Entonces, el producto AB (en ese orden) está definido para ser una 
nueva matriz C del orden M x P tal que 


y i 
Cij = J aikbkj f NN 
ij Z ik?kj j=l, ade 


Es decir, el elemento en el i-ésimo renglón y la j-ésima columna de C se obtiene al multiplicar los 
elementos del ¿-ésimo renglón de A por los elementos correspondientes de la j-ésima columna de 
B y sumar sobre todos los términos; esto se conoce como regla de la multiplicación del renglón 
por columna. Así, para obtener c11, el elemento en el primer renglón y en la primera columna de 
C, se multiplican los elementos en el primer renglón de A por los correspondientes en la primera 
columna de B y se suma sobre todos los términos. En forma similar, para obtener cņ, se multi- 
plican los elementos del primer renglón de A por los correspondientes en la segunda columna de 
B y se suma sobre todos los términos, y así sucesivamente. 

Observe que, para que exista la multiplicación, las matrices A y B deben ser conformables 
respecto de la multiplicación; es decir, el número de columnas en A debe ser igual al número 
de renglones en B. Si, por ejemplo, 


Z l 

3.4 7 
a=Í; 6 i To o AE 
6 2 


(3 x2)+(4x3)+(7x6) 3 x1)+(4x5)+(7x2) 
(5x2)+(6x3)+(1x6) (5x1)+(6x5)+(1x2) 


[60 37 
= |34 37 


2x2 
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Pero si 


31407 23 
tel 6 1] y al. d 


el producto AB no está definido, pues A y B no son conformables respecto de la multiplicación. 


Propiedades de la multiplicación de matrices 


I; 


La multiplicación de matrices no necesariamente es conmutativa; es decir, en general AB 4 
BA. Por consiguiente, el orden en el cual se multiplican las matrices es muy importante. AB 
significa que A es posmultiplicada por B o B es premultiplicada por A. 


. Aunque existan AB y BA, las matrices resultantes pueden no ser del mismo orden. Por tanto, 


si A es M x N y B es N x M, AB es M x M, mientras que BA es N x N, de donde se explica 
la diferencia de orden. 


. Aunque A y B sean matrices cuadradas, de manera que AB y BA estén definidas, las matrices 


resultantes no necesariamente serán iguales. Por ejemplo, si 


[lo fi 


entonces 


46 76 
an=| 1: | 


y AB BA. Un ejemplo de AB = BA es cuando tanto A como B son matrices identidad. 


. Un vector renglón posmultiplicado por un vector columna es un escalar. Por tanto, considere 


los residuos de mínimos cuadrados ordinarios ú;, ùz, . . . , Uy. Si u es un vector columna y u’ 


un vector renglón, tenemos 


UN 
ûz 
tû = [ù un dz --»* Un]| %3 
Un 
=+ + H HN 
= > ù? un escalar [véase la ecuación (C.3.5)] 


5. Un vector columna posmultiplicado por un vector renglón es una matriz. Como ejemplo, 


considere las perturbaciones poblacionales del modelo clásico de regresión lineal, a saber: u1, 


U2, . . . , Un. Si u es un vector columna y u’ un vector renglón, obtenemos 
ui 
u2 
uu’ = | u3 | [u] u2 uz >> un] 
Un 
2 
ui Uiu? U1u3 + Ujun 
= Uu] uż 4243 +++ Uun 
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que es una matriz de orden n x n. Observe que la matriz anterior es simétrica. 
6. Una matriz posmultiplicada por un vector columna es un vector columna. 
7. Un vector renglón posmultiplicado por una matriz es un vector renglón. 


8. La multiplicación de matrices es asociativa; es decir, (AB)C = A(BC), donde A es M x N, 
BesNxPyCesP x K. 


9. La multiplicación de matrices es distributiva respecto de la suma; es decir, A(B + C) = AB + 
AC y (B + C)A = BA + CA. 


Trasposición de matrices 

Definimos ya el proceso de trasposición de matrices como el intercambio de renglones y de 

columnas de una matriz (o de un vector). Ahora presentamos algunas propiedades de la traspo- 

sición. 

1. La traspuesta de una matriz traspuesta es la matriz original misma. Por tanto, (A'Y = A. 

2. Si A y B son conformables para la adición, entonces C = A + B y C = (A + BY = A' + B’. 

Es decir, la traspuesta de la suma de dos matrices es la suma de sus traspuestas. 

3. Si AB está definido, entonces (ABY = B'A’. Es decir, la traspuesta del producto de dos matri- 
ces es el producto de sus traspuestas en orden contrario. Esto puede generalizarse: (ABCDY 
= D'C'B'A'. 

. La traspuesta de una matriz identidad I es la matriz identidad misma; es decir I = I. 

. La traspuesta de un escalar es el escalar mismo. Por tanto, si à es un escalar, A’ = A. 

. La traspuesta de (AAY es àA’, donde A es un escalar. [Vota: (AA = A'A’ =A'1 =2A/.] 


. Si A es una matriz cuadrada tal que A = A”, entonces A es una matriz simétrica. (Véase la 
definición de matriz simétrica de la sección B.2.) 


ZN Di Ur A 


Inversión de matrices 


La inversa de una matriz cuadrada A, denotada por A”! (se lee A inversa), si existe, es una matriz 
cuadrada única tal que 


AA! = A'A =I 


donde I es una matriz identidad cuyo orden es el mismo que el de A. Por ejemplo, 


ASS 


Veremos cómo calcular A7! después de estudiar el tema de determinantes. Mientras tanto ob- 
serve estas propiedades de la inversa. 


El bi 


1. (AB)! = B7!A7|; es decir, la inversa del producto de dos matrices es el producto de sus in- 
versas en orden opuesto. 


2. (A7!y = (A'J }; es decir, la traspuesta de A inversa es la inversa de A traspuesta. 


B.4 Determinantes 


Por cada matriz cuadrada A existe un número (escalar) conocido como el determinante de la 
matriz, que se denota por det A o por el símbolo |A |, donde | | significa “el determinante de”. 
Observe que una matriz por sí misma no tiene valor numérico, pero el determinante de una matriz 
es un número. 


1 3 =7 L. 3 S 
A=|2 5 0 |A]=[2 5 0 
3 8 6 3 8 6 


844 Apéndice B Nociones básicas de álgebra matricial 


El | A | en este ejemplo se denomina determinante de orden 3 porque está asociado con una matriz 
de orden 3 x 3. 


Cálculo de un determinante 


El proceso de encontrar el valor de un determinante se conoce como evaluación, expansión O 
reducción del determinante. Esto se logra al manipular los elementos de la matriz en una forma 
bien definida. 


Evaluación de un determinante de 2 x 2 


Si 
a ad12 
A=| 4 €. 
41 an 
su determinante se evalúa de la siguiente manera: 


a11 a12 


[A] = 
an ES a), 


= 411422 — 412421 


que se obtiene al multiplicar en cruz los elementos de la diagonal principal y restar de ellos la 
multiplicación en cruz de los elementos de la otra diagonal de la matriz A, como indican las 
flechas. 


Evaluación de un determinante de 3 x 3 


Si 
dil 4 413 
A=la an az 
431 432 433 
entonces 


| A | = a11422033 — 411423432 + 412423431 — 412421433 + 413421432 — 413422431 
Un examen cuidadoso de la evaluación de un determinante de 3 x 3 muestra que: 


1. Cada término en la expansión del determinante contiene uno y sólo un elemento de cada ren- 
glón y de cada columna. 


2. El número de elementos en cada término es el mismo que el número de renglones (o de colum- 
nas) en la matriz. Por tanto, un determinante de 2 x 2 tiene dos elementos en cada término de 
su expansión, un determinante de 3 x 3 tiene tres elementos en cada término de su expansión, 
y así sucesivamente. 

3. Los términos en la expansión alternan su signo de + a —. 

4. Un determinante de 2 x 2 tiene dos términos en su expansión y un determinante de 3 x 3 
tiene seis términos en su expansión. La regla general es: El determinante de orden N x N tiene 
N! = N(N — 1X(N — 2) ---3 - 2 - 1 términos en su expansión, donde N! se lee “N factorial”. 
Según esta regla, un determinante de orden 5 x 5 tendrá 5 - 4-3 -2 - 1 = 120 términos en su 
expansión.! 


Propiedades de los determinantes 


1. Una matriz cuyo determinante tiene un valor de cero se denomina matriz singular, mientras 
que aquélla con un determinante diferente de cero se denomina matriz no singular. No hay 
inversa de una matriz como la recién definida para una matriz singular. 


1 Para evaluar el determinante de una matriz A de N x N, consulte las referencias. 
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2. Si todos los elementos de cualquier renglón de A son cero, su determinante es cero. Por 
tanto, 


0.0.0 
¡|A|]=|3 4 s|=0 
6 7 8 
3. |A’ | = |A |; es decir, los determinantes de A y de A traspuesta son los mismos. 


4. El intercambio de dos renglones cualesquiera o de dos columnas cualesquiera de una matriz 
A cambian el signo de | A]. 


EJEMPLO 1 Si 
@ 9 =1 4 
Bda la 
donde B se obtiene al intercambiar los renglones de A, entonces 
[A] =24-(=9 y  IB]=-9-(24) 
5. Si cada elemento de un renglón o de una columna de A se multiplica por un escalar à, enton- 
ces | A | se multiplica por A. 

EJEMPLO 2 Si 


y multiplicamos el primer renglón de A por 5 para obtener 


25 A0 
al 


se ve que |A| = 36 y |B| = 180, que es 5 |A]. 


6. Si dos renglones o columnas de una matriz son idénticas, su determinante es cero. 


7. Si un renglón o una columna de una matriz es un múltiplo de otro renglón o columna de esa 
matriz, su determinante es cero. Por tanto, si 


4 8 
a=[3 4] 
donde el primer renglón de A es el doble de su segundo renglón, | A | = 0. De forma más gene- 


ral, si cualquier renglón (columna) de una matriz es una combinación lineal de otros renglones 
(columnas), su determinante es cero. 


8. |AB| = |A || B|; es decir, el determinante del producto de dos matrices es el producto de sus 
determinantes (individuales). 


Rango de una matriz 


El rango de una matriz es el orden de la submatriz cuadrada más grande cuyo determinante no 
sea cero. 
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EJEMPLO 3 


3656 
A=|0 4 5 
3 21 


Puede verse que |A| = 0. En otras palabras, A es una matriz singular. Por tanto, aunque su orden 
es 3 x 3, su rango es menor que 3. En realidad, es 2, pues se puede encontrar una submatriz 
2 x 2 cuyo determinante no es cero. Por ejemplo, si borramos el primer renglón y la primera 
columna de A, obtenemos 
[ii 
2 1 


cuyo determinante es —6, que es diferente de cero. Así, el rango de A es 2. Como ya menciona- 
mos, la inversa de una matriz singular no existe. Por consiguiente, para una matriz A de N x N, 
su rango debe ser N para que su inversa exista; si es menor que N, A es singular. 


Menor 

Si se borra el renglón i-ésimo y la columna j-ésima de una matriz A de N x N, el determinante de 
la submatriz resultante se denomina el menor del elemento a;; (el elemento en el intercepto del 
renglón i-ésimo y de la columna j-ésima) y se denota por | M;; |. 


EJEMPLO 4 


d11 12 013 
A=| an a a23 
a31 032 33 


El menor de aj: es 


a22 23 
|M11| = = (422033 — 423032 
a32 33 
En forma similar, el menor de a21 es 
a12 13 
|M21| = = 012033 — 013032 
a32 433 


De la misma manera, pueden encontrarse menores de otros elementos de A. 


Cofactor 
El cofactor del elemento a;; de una matriz A de N x N, denotado por c; ;, se define como 


Cij =( =1) 7] M;i | 


En otras palabras, un cofactor es un menor con un signo asociado, con signo positivo si i + j es 
par y negativo si i + j es impar. Por tanto, el cofactor del elemento a; de la matriz A de 3 x 3 
dado antes es 477433 — a23432, mientras que el cofactor del elemento a; es —(aņna33 — a13432) 
porque la suma de los subíndices 2 y 1 es 3, un número impar. 


Matriz de cofactores 


Al remplazar los elementos a;; de una matriz A por sus cofactores obtenemos una matriz cono- 
cida como matriz de cofactores de A, denotada por (cof A). 


Matriz adjunta 


La matriz adjunta, escrita como (adj A), es la traspuesta de la matriz de cofactores; es decir, 
(adj A) = (cof AY. 
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B.5 Forma de encontrar la inversa de una matriz cuadrada 


Si A es cuadrada y no singular (es decir, | A | Æ 0), su inversa A7! se encuentra de la siguiente 
manera: 


1 
AT! = — (adj A) 
|A] 


Los pasos comprendidos en el cálculo son los siguientes: 


. Encontrar el determinante de A. Si es diferente de cero, proceda al paso 2. 
. Remplazar cada elemento a;; de A por su cofactor para obtener la matriz de cofactores. 


. Trasponer la matriz de cofactores para obtener la matriz adjunta. 


bb UD N nm 


. Dividir cada elemento de la matriz adjunta por | A |. 


EJEMPLO 5 


Encuentre la inversa de la matriz 
IES 
MS 
21 3 


Paso 1. Primero se encuentra el determinante de la matriz. Al aplicar las reglas de expansión del 
determinante de 3 x 3 dado antes, obtenemos |A| = —24. 


Paso 2. Obtenemos ahora la matriz de cofactores, por ejemplo, C: 


EME 
eri ial -i êl 
103 
Iy =y =9 
=| -3 -3 3 
=13 1 =3 


Paso 3. Al trasponer la matriz de cofactores anterior, obtenemos la siguiente matriz adjunta: 


17 -3 -13 
CA E = 1 
9. 3 -3 
Paso 4. Ahora dividimos los elementos de (adj A) entre el valor del determinante —24 para 


obtener 
1 17 =3 =13 
lo. 
A = 24 =7 =3 11 
-9 SS 


17 3 13 
724 24 24 
= 7 3 11 
24 24 24 
9 3 3 
24 24 24 
Se verifica fácilmente que 
1 0 0 
AA'=|O0 1 0 
0.0 1 


que es una matriz identidad. El lector debe corroborar que para el ejemplo ilustrativo del apén- 
dice C, la inversa de la matriz X'X es la que aparece en la ecuación (C.10.5). 
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B.6 Diferenciación matricial 


Para seguir el material del apéndice CA, sección CA.2, necesitamos algunas reglas respecto de 
la diferenciación de matrices. 


REGLA 1 Sia'=[a az... an] es un vector renglón de números y 


es un vector columna de las variables x1, x2, . . . , Xn entonces 
a1 
a(a'x) Ca 
=di= d 
oX : 
An 
REGLA 2 Considere la matriz x'Ax tal que 
a11 012 Gia || 41 
j Ga Ca = Co || %2 
XAX= K X2 xh i 
Am an2 Ann Ka 
Entonces, 
a(x'Ax 
( ) = 2Ax 
0X 


que es un vector columna de n elementos, o 


a(x’ 
0 


x) = 2x'A 
X 


que es un vector renglón de n elementos. 
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análisis avanzado. 


Apéndice 


Método matricial 
para el modelo 
de regresión lineal 


En este apéndice presentamos el modelo clásico de regresión lineal de k variables (Y y X2, X3,..., 
Xy) en notación de álgebra matricial. En teoría, el modelo de k variables es una extensión lógica 
de los modelos de dos y tres variables considerados hasta ahora en este texto. Por consiguiente, en 
este capítulo veremos muy pocos conceptos nuevos, a excepción de la notación matricial. 

Una gran ventaja del álgebra matricial sobre la escalar (álgebra elemental que trata con es- 
calares o números reales) es que proporciona un método compacto de manejo de modelos de 
regresión que implican cualquier número de variables; una vez formulado y resuelto en notación 
matricial el modelo de k variables, la solución es aplicable a una, dos, tres o cualquier número 
de variables. 


C.l Modelo de regresión lineal con k variables 


Si generalizamos los modelos de regresión lineal de dos y tres variables, el modelo de regresión 
poblacional de k variables (FRP) con la variable dependiente Y y k — 1 variables explicativas X>, 
X3, . . . , Xp puede escribirse así: 


FRP: Y; = B1 + P2X2 + P3X3i +-+- + BkXki + üi i= l2 3A 
(C.1.1) 


donde $, = el intercepto, 2 a By = coeficientes parciales de pendientes, u = término de pertur- 
bación estocástica e i = ¡-ésima observación, con n como tamaño de la población. La FRP (C.1.1) 
se interpreta en la forma usual: la media o el valor esperado de Y condicionado a los valores fijos 
(en muestreo repetido) de X2, X3, ... , Xp es decir, E (Y | Xi, X3¡, . . . , Aza). 


1 Los lectores que no estén familiarizados con el álgebra matricial deben revisar el apéndice B antes de 
continuar. El apéndice B proporciona las bases del álgebra matricial requeridas para comprender este 
capítulo. 
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La ecuación (C.1.1) es una expresión abreviada para el siguiente conjunto de n ecuaciones 
simultáneas: 


Yı = bi + 221 +B3431 +: + BA + u 


Y) = pı + b2X22 + 3X32 + <- + BrXr2 + u2 (C.1.2) 


Yn = Bi F B2X2n + B3X3n OS BrX tn + Uy 


El sistema de ecuaciones (C.1.2) se escribe en una forma alterna aunque más ilustrativa:? 


Yı 1 Xai Xi © Xu Bi uy 
Y) l1 Xn Xz +: Xp Bo uz 
voa E i . . q s dl (C.1.3) 
Yn 1 Xan X3n SAS Xkn bk Un 
y ==> X B + u 
nxi nx k kx1 nxl 


donde y = vector columna n x 1 de observaciones sobre la variable dependiente Y 
X = matriz n x k, con n observaciones sobre las k — 1 variables X a Xp, y la primera 
columna de números 1 representa el término del intercepto. (Esta matriz se conoce 
también como matriz de datos.) 
B = vector columna k x 1 de los parámetros desconocidos 61, 2, . . . , Bk 
u = vector columna n x 1 de n perturbaciones u; 


Con las reglas de multiplicación y adición de matrices, el lector debe verificar que los sistemas 
(C.1.2) y (C.1.3) sean equivalentes. 

El sistema (C.1.3) se conoce como representación matricial del modelo de regresión lineal 
general (de k variables). Se escribe en forma más compacta como 


y = X B + u 
nx1l nxk kxl nxl (CMA) 


Donde no haya confusión sobre las dimensiones u órdenes de la matriz X y de los vectores y, B y 
u, la ecuación (C.1.4) se escribe tan sólo como: 


y=XB+u (C.1.5) 


Como ilustración de la representación matricial, considere el modelo de dos variables con- 
sumo-ingreso del capítulo 3, a saber: Y; = 61 + 2X; + u; donde Y es el gasto de consumo y X 
es el ingreso. 


2 Según la notación del apéndice B, los vectores se representan con letras minúsculas en negritas y las ma- 
trices con letras mayúsculas en negritas. 
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Con la información de la tabla 3.2 podemos escribir la formulación matricial así: 


70 1 80 uy 
65 1 100 uz 
90 1 120 u3 
95 1 140 u4 
110 1 160 || £ us 
115| |1 180 A E U6 (C.1.6) 
120 1 200 u7 
140 1 220 ug 
155 1 240 ug 
150 1 260 uio 
y = X B + u 
10x 1 10x2 2x1 10x 1 


Como en los casos de dos y tres variables, el objetivo es estimar los parámetros de la regresión 
múltiple (C.1.1) y efectuar inferencias sobre ellos a partir de la información disponible. En la no- 
tación matricial esto equivale a estimar f y a inferir sobre él. Para fines de estimación, podemos 
utilizar el método de mínimos cuadrados ordinarios (MCO) o el método de máxima verosimilitud 
(MV). Pero, como ya mencionamos, estos dos métodos producen valores estimados idénticos 
de los coeficientes de regresión.* Por consiguiente, limitaremos nuestra atención al método de 
MCO. 


C.2 Supuestos del modelo clásico de regresión lineal 
en notación matricial 


Los supuestos en los cuales se basa el modelo clásico de regresión lineal están en la tabla C.1; 
se presentan en notación escalar y en notación matricial. El supuesto 1 de (C.2.1) significa que 
el valor esperado del vector de perturbaciones u, es decir, de cada uno de sus elementos, es cero. 
Más explícitamente, E(u) = 0 significa 


UN E(u;) 0 
u E(u 0 

ala a i (C.2.1) 
Un E(un) 0 


El supuesto 2 [ecuación (C.2.2)] es una forma compacta de expresar los dos supuestos de 
(3.2.5) y (3.2.2) con notación escalar. Para ver esto, escribimos 


E(w) = E| . |[u u2 +++ un] 


3 La prueba de que esto es así en el caso de k variables se encuentra en las notas del capítulo 4. 
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TABLA C.1 
Supuestos del modelo 
clásico de regresión 
lineal 


Notación escalar Notación matricial 


1. E(u) = 0, para cada ¡ (3.2.1) 1. E(u)=0 
donde u y O son vectores columna 
n x 1, con 0 como vector nulo 


2. E(u¡,uj) = 0 a) (3.2.5) 2. E(uu') =0?1 
=0? i2j (3.2.2) donde I es una matriz de identidad 
nxn 
3. X2, X3, ..., Xķ son fijas 3. La matriz X, n x k es no estocástica; 
o no estocásticas es decir, consiste en un conjunto de 


números fijos 
4. No hay relación lineal exacta (7.1.9) 4. El rango de X es p(X) = k, donde k es el 


entre las variables X; es decir, número de columnas en X y k es menor 
no hay multicolinealidad que el número de observaciones, n 

5. Para las pruebas de hipótesis (4.2.4) 5. El vector u tiene una distribución normal 
ui ~ N(0, 0?) multivariada, es decir, u ~ N(0, o°I) 


donde w es la traspuesta del vector columna u, o vector renglón. Al efectuar la multiplicación, 
obtenemos 


u? Uju2 ''* Ujun 
2 
E(uu/) =E u2u;] uz +++ U2Un 
UpU] Unur ::** u? 


Al aplicar el operador de valor esperado £ a cada elemento de la matriz anterior, obtenemos 


E (uz) E(uju2) +- E(uju,) 
E(uw) = | E020) Elu3) + Eluzu) (C.2.2) 
E(u,u) E(u) -> E(u?) 


Debido a los supuestos de homoscedasticidad y de no correlación serial, la matriz (C.2.2) se 
reduce a 


o 0 0 0 
E) =|0 70 0 
0 0 a? 
1.0.0 0 

=0?20 10>- 0 (C.2.3) 
0.0.0 1 


donde I es una matriz identidad n x n. 

La matriz (C.2.2) [y su representación en (C.2.3)] se denomina matriz de varianza-cova- 
rianza de las perturbaciones u;; los elementos sobre la diagonal principal (que van de la esquina 
superior izquierda a la esquina inferior derecha) de esta matriz dan las varianzas, y los elementos 
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por fuera de la diagonal principal dan las covarianzas.* Observe que la matriz de varianza-cova- 
rianza es simétrica: los elementos por encima y por debajo de la diagonal principal son reflejos 
unos de los otros. 

El supuesto 3 de la tabla C.1 establece que la matriz X de n x k es no estocástica; es decir, 
consta de números fijos. Como ya dijimos, el análisis de regresión es de regresión condicional, 
es decir, condicional a los valores fijos de las variables X. 

El supuesto 4 establece que la matriz X tiene rango columna completo igual a k, el número 
de columnas en la matriz. Esto significa que las columnas de la matriz X son linealmente inde- 
pendientes; es decir, no hay relación lineal exacta entre las variables X. En otras palabras, no 
hay multicolinealidad. En notación escalar esto equivale a decir que no existe un conjunto de 
números 41,42, ..., å% = 0 no todos iguales a cero tales que [cf. (7.1.8)] 


MAX + AXi + c+ AA =0 (C.2.4) 


donde X1¡= 1 para todo i (para dar cabida a la columna de números 1 en la matriz X). En notación 
matricial, (C.2,4) se representa como 


Mx=0 (C.2.5) 


donde A'es un vector renglón de 1 x ky x es un vector columna de k x 1. 

Si existe una relación lineal exacta como (C.2.4), se dice que las variables son colineales. Si, 
por otra parte, (C.2.4) se cumple sólo si 1; = 2 = 3 = - - - = 0, entonces se dice que las variables 
X son linealmente independientes. Dimos una razón intuitiva para el supuesto de no multicolinea- 
lidad en el capítulo 7, y analizamos más a fondo este supuesto en el capítulo 10. 


C.3 Estimación por MCO 


Para obtener la estimación por MCO de ß, primero escribimos la regresión muestral de k-varia- 
bles (FRM): 


Y; = ĝi + PX + AX + + ÊkXri + û; (C.3.1) 


la cual se escribe en forma más compacta en notación matricial como: 


y=XB+4 (C.3.2) 
y en forma matricial como 
Yı l1 Xni Asi © Xu Br y 
lat Le des ss Mal e (C.3.3) 
Y, 1 Xan X3n o X kn Ê, i 
y = X B + û 
nx1l nxk kxl nx l 


donde ß es un vector columna de k elementos compuesto por los estimadores de MCO de los 
coeficientes de regresión, y donde û es un vector columna de n x 1 con n residuos. 


4 Por definición, la varianza de u; = E[u; — E(u)]? y la covarianza entre u; y uj = E[u; — E(u)][u; — E(u)]. Pero, 
debido al supuesto E(u) = O para cada i, tenemos la matriz de varianza-covarianza (C.2.3). 
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Como en los modelos de dos y tres variables, en el caso de k variables los estimadores de MCO 
se obtienen al reducir 


0% = Y O- Br Box ++ — ÊX u? (C.3.4) 


donde J` ù? es la suma de cuadrados residual (SCR). En notación matricial, esto equivale a re- 
ducir Y/ú, pues 


ul 
ara O rA A A U2 | A2 a2 a2 AJ C.3.5 
û'û = [ù Uy +: Únl| 2 | =4+45+-:: +0 = ü; (C.3.5) 
Un 


Ahora, de (C.3.2) obtenemos 
i=y-XB (C.3.6) 
Por consiguiente, 
vá=(y-XB Y — XP) 
=yy-28P'Xy+PXX8B 
donde aprovechamos las propiedades de la traspuesta de una matriz, a saber: (XBy = = PX; y, 
como P Xy es un escalar (un número real), es igual a su traspuesta y Xf$. 

La ecuación (C.3.7) es la representación matricial de (C.3.4). En notación escalar, el método 
de MCO consiste en estimar Bj, Bo, ..., z de manera que ná sea lo más pequeño posible. Esto 
se logra al diferenciar parcialmente (C.3.4) respecto de £1, 2, ..., £x e igualar a cero las expre- 
siones resultantes. Este proceso produce k ecuaciones simultáneas con k incógnitas, que son las 


ecuaciones normales de la teoría de mínimos cuadrados. Como se ve en el apéndice CA, sección 
CA. 1, estas ecuaciones son las siguientes: 


nĝi + Ba Xai + Ba A+ Êr Y Xu = Y F 
hs NX; +Ê Y X; + ba Y XX; ++ Êr YO Xa Xni = Y Xay, 


Êi Xy; + B2 Y XiX + B3 NX, +-+ Êr Y XXu = Y XX, 


BO) Xi + BA a + fs XA Êk Y Xu = Y XuY; 


(C.3.7) 


(C.3.8)” 
En forma matricial, la ecuación (C.3.8) se representa de la siguiente manera: 

n X Xj DXA > D Xu Êi 1 Lo... Í Yı 
Ax y, DAX +: YN AA b2 Xr Xa e N Y, 
EX% DN XX NX +: EXX BbBl=|X1 X% Xan 5 
Xu EXuXa NEXuXy ++ EX LÂ Xu Xa +: Xml|y, 

(XX) ê Xx 
(C.3.9) 


5 Estas ecuaciones pueden recordarse fácilmente. Empiece con la ecuación Y; = $1 + f2X2¡+ 

Êz Xz3i +-+ Êk Xki. Al sumar esta ecuación sobre los n valores se obtiene la primera ecuación de (C.3.8); al 
multiplicar ésta por X2 en ambos lados y sumar sobre n se obtiene la segunda ecuación; multiplique ésta por 
X3 en ambos lados y sume sobre n para obtener la tercera ecuación, y así sucesivamente. A propósito, ob- 
serve que a partir de la primera ecuación en (C.3.8) resulta Br =Y- Bo Kimie ÊkXk [consulte (7.4.6)]. 
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o, en forma más compacta, como 
(XX)$ = X'y (C.3.10) 


Note las siguientes características de la matriz (X'X): 1) Proporciona las sumas simples de 
cuadrados y productos cruzados de las variables X, una de las cuales es el término del intercepto 
que toma el valor 1 para cada observación. Los elementos sobre la diagonal principal dan las 
sumas simples de cuadrados y los que no están en la diagonal principal dan las sumas simples de 
productos cruzados (por simples nos referimos a que están expresadas en las unidades originales 
de medición). 2) Es simétrica, pues el producto cruzado entre Xz; y X3; es el mismo que entre X3; 
y Xi. 3) Es de orden (k x k), es decir, tiene k renglones y k columnas. 

En (C.3.10), las cantidades conocidas son (X'X) y (X'y) (el producto cruzado entre las varia- 
bles X y y) y la incógnita es $. Ahora, mediante álgebra matricial, si existe la inversa de (X'X), 
es decir, (X'X)”!, entonces premultiplicamos ambos lados de (C.3.10) por esta inversa para ob- 
tener 


AX RD$= (XX) Xy 
Pero, como (X'X)7! (X'X) = I es una matriz identidad de orden k x k, obtenemos 


IÎ = (XX) Xy 


b = XD X y 


(C.3.11) 
kx1 kxk xoa x 


La ecuación (C.3.11) es un resultado fundamental de la teoría de MCO en notación ma- 
tricial. Muestra cómo se estima el vector f a partir de la información dada. Aunque (C.3.11) se 
AJA 


obtuvo de (C.3.9), se puede obtener directamente de (C.3.7) al diferenciar ú'ú respecto de fB. La 
prueba se da en el apéndice CA, sección CA.2. 


Una ilustración 

Como ilustración de los métodos matriciales desarrollados hasta el momento, analicemos de 
nuevo el ejemplo de consumo-ingreso con los datos de la ecuación (C.1.6). Para el caso de dos 
variables tenemos 


1 X 
ı X 
, it 1 1 1 2 n X; 
(XX) = 1% |= 2% 
X% X% X% Xn a FA DX; 
1 Xy 
y 
Y 
Y. 
EE E E 1 Y, JEY 
Y5 k Bo nll Tri 
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Con la información de (C.1.6), obtenemos 


xx=| 10 a] 


1700 322 000 


1110 
Iy — 
AS E a 
Recurrimos a las reglas de inversión de matriz del apéndice B, sección B.3, y vemos que la in- 
versa de la matriz (X"X) anterior es 


| 0.97576 Bel 


—0.005152 0.0000303 


Por consiguiente, 


â= [ê 0.97576  —0.005152 1110 
=Â —0.005152  0.0000303 | | 205 500 
_ [24.4545 

0.5079 


Con la computadora obtuvimos Ê = 24.4545 y Ê = 0.5091. La diferencia entre las dos esti- 
maciones se debe a errores de redondeo. A propósito, observe que al trabajar con calculadora de 
escritorio, es esencial obtener resultados con un número significativo de dígitos para reducir los 
errores de redondeo. 


Matriz de varianza-covarianza de f 

Los métodos matriciales permiten desarrollar fórmulas no sólo para la varianza de Bi cualquier 

elemento dado de p, sino también para la covarianza entre dos elementos de $ cualesquiera, por 

ejemplo, Ê; y Ê; j. Se necesitan estas varianzas y covarianzas para fines de inferencia estadística. 
Por definición, la matriz de varianza-covarianza de B es [consulte (C.2.2)] 


var-cov (Ê) = ENIB— E(B)IB — E(B)) 
la cual se escribe explícitamente como 


var(B1)  cov(Br, B2) ++- cov(Br fx) 
var-cov(B) = | cov (Êz, Êi)  var(B2) -cov (Âz, Êx) 
cov (Êr, Ê1) cov (6r, b) --  var(Bx) 
(C.3.12) 


Se muestra en el apéndice CA, sección CA.3, que la matriz anterior de varianza-covarianza se 
obtiene a partir de la siguiente fórmula: 


var-cov(B) = 0 _ XX)” (C.3.13) 


donde 0? es la varianza homoscedástica de u; y (XX)! es la matriz inversa que aparece en la 
ecuación (C.3.11), la cual da el estimador de MCO, GB. 
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En los modelos de regresión lineal con dos y tres variables, un estimador insesgado de o? 
estaba dado por 6? = Y 2? /(n — 2) y 6? = Y ú?/(n — 3), respectivamente. En el caso de k va- 
riables, la fórmula correspondiente es 


(C.3.14) 


donde ahora hay n — k gl. (¿Por qué?) 


Aunque, en principio, ú'ú se calcula a partir de los residuos estimados, en la práctica se ob- 
tiene directamente de la siguiente manera. Recuerde que X û? (= SCR) = SCT — SCE, y en el 
caso de dos variables podemos escribir 


Ai A DY (3.3.6) 


y en el caso de tres variables 


y û = Dy — ba Y yo - Ê; XO yos; (7.4.19) 


Al extender este principio, se ve que para el modelo de k variables 


Ni = Y y ÊY Yizu = Êr YO Vixi (C.3.15) 


En notación matricial, 


SCT: Y y =yy-01n7? (C.3.16) 


SCE: Â, $ vixz +- + Êr D yo =P Xy Y? (C.3.17) 


donde el término Y? se conoce como corrección para la media.* Por consiguiente, 


A 


vú= yy — PX'y (C.3.18) 


Una vez obtenida ú/ú, 6? se calcula fácilmente de (C.3.14), lo cual, a su vez, permite estimar la 


matriz de varianza-covarianza (C.3.13). 
Para nuestro ejemplo ilustrativo, 


ains E 1110 
vá = 132 100 — [24.4545 0.5091 | ps 7] 
= 337.373 


Por tanto, 9? = (337.273/8) = 42.1591, que es aproximadamente el valor obtenido ya en el 
capítulo 3. 


6 Nota: Y” y? = YY — Y)? = Y Y? — nY? = y y — nY?. Por consiguiente, sin el término de corrección, y'y 
dará tan sólo la suma sencilla de cuadrados, no la suma de las desviaciones al cuadrado. 
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Propiedades del vector de MCO $ 


En los casos de dos y tres variables, sabemos que los estimadores de MCO son lineales e in- 
sesgados, y en la clase de todos los estimadores lineales e insesgados, éstos tienen varianza 
mínima (propiedad de Gauss-Markov). En resumen, los estimadores de MCO son los mejores 
estimadores lineales insesgados (MELI). Esta propiedad se extiende a todo el vector f; es decir, 
B es lineal (cada uno de sus elementos es una función lineal de Y, la variable dependiente). 
E ($) = = ß, es decir, el valor esperado de cada elemento de B es igual al elemento correspondiente de 
la verdadera ß, y en la clase de todos los estimadores lineales e insesgados de f, el estimador 
de MCO, f tiene varianza mínima. 

La prueba se da en el apéndice CA, sección CA.4. Como establecimos en la introducción, el 
caso de k variables es, en su mayoría, una extensión directa de los casos de dos y tres variables. 


C.4 Coeficiente de determinación R? en notación matricial 


El coeficiente de determinación R? se ha definido como 


a POS 
SCT 
En el caso de dos variables, 
R= ALa (3.5.6) 
y en el caso de tres variables 
R= ÊI aH 2 Nisi (7.5.5) 
Si generalizamos, para el caso de k variables obtenemos 
po — Adina + Ê pt BAY) Vinni (C.4.1) 
Con (C.3.16) y (C.3.17), la ecuación (C.4.1) se escribe como 
R= n (C.4.2) 


lo cual da la representación matricial de R?. 
Para nuestro ejemplo ilustrativo, 


P'X y = [24.3571 0.5079) | a 


205 500 
= 131 409.831 
yy = 132 100 
y 
nY? = 123 210 


Al reemplazar estos valores en (C.4.2) vemos que R? = 0.9224, que se acerca al valor obtenido 
antes, salvo por errores de redondeo. 
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C.5 Matriz de correlación 


En los capítulos anteriores encontramos los coeficientes de correlación de orden cero o simple, 
r12, r13, 723, y las correlaciones parciales o de primer orden, 712.3, 713.2, 723.1, y sus interrelacio- 
nes. En el caso de k variables tendremos en total k(k — 1)/2 coeficientes de correlación de orden 
cero. (¿Por qué?) Estas k(k — 1)/2 correlaciones se sitúan en una matriz, denominada matriz de 
correlación R, de la siguiente manera: 


IS Fir 

Rala ma m3 rok 
TA AR A SE E (C.5.1) 

l ri 513 Fik 

-lai 1 7 rak 

Ha To n 1 


donde el subíndice 1, como antes, denota la variable dependiente Y (r12 significa el coeficiente de 
correlación entre Y y X», y así sucesivamente), y donde se aplica el hecho de que el coeficiente 
de correlación de una variable respecto de ella misma es siempre 1 (r11 = r22 =--> = Fkk = 1). 

A partir de la matriz de correlación R se obtienen los coeficientes de correlación de primer 
orden (véase el capítulo 7) y de órdenes superiores como r;j234...x. (ejercicio C.4.) Muchos pro- 
gramas de computadora calculan mediante rutinas la matriz R. Utilizamos la matriz de correla- 
ción en el capítulo 10. 


C.6 Pruebas de hipótesis sobre coeficientes de regresión 
individuales en notación matricial 


Por las razones expresadas en los capítulos anteriores, si el objetivo es tanto la inferencia como la 
estimación, tenemos que suponer que las perturbaciones u; siguen alguna distribución de proba- 
bilidad. Además, por las razones ya citadas, en el análisis de regresión suele suponerse que cada 
ui sigue una distribución normal con media cero y varianza constante o°. En notación matricial, 
tenemos 


u ~ N(0, 0?1) (C.6.1) 


donde u y 0 son vectores columna n x 1 e Tes una matriz identidad (n x n), con 0 como vector 
nulo. 

Con el supuesto de normalidad, sabemos que en los modelos de regresión lineal de dos y tres 
variables (1) el estimador de MCO £; y el estimador de MV Bi son idénticos, pero el estimador 
de MV ~ a? es sesgado, aunque este sesgo se elimina mediante el estimador de MCO insesgado 
67; y (2) los estimadores de MCO É,, también están normalmente distribuidos. Para generalizar, 
en el caso de k variables es posible demostrar que 


Ê ~ NIB, o XX)” !] (C.6.2) 


es decir, cada elemento de B está normalmente distribuido con media igual al elemento corres- 
pondiente del verdadero $ y la varianza está dada por o? veces el elemento correspondiente de la 
diagonal de la matriz inversa (X'X)”?. 
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Como en la práctica se desconoce o°, se estima mediante 6?. Entonces, por el cambio usual 


a la distribución f, se cumple que cada elemento de f sigue la distribución £ con n — k gl. Sim- 
bólicamente, 
¡PEA (C.6.3) 
ee (B;) 


con n — k gl, donde Êi es cualquier elemento de p. 

Por consiguiente, la distribución f sirve para probar hipótesis sobre el verdadero f; y establecer 
intervalos de confianza sobre él. Ya ilustramos el verdadero mecanismo en los capítulos 5 y 8. 
Para ver un ejemplo completo, consulte la sección C.10. 


C.7 Prueba de significancia global de la regresión: 


análisis de varianza en notación matricial 


TABLA C.2 
Formulación matricial 
de la tabla ANOVA para 
el modelo de regresión 
lineal con k variables 


En el capítulo 8 desarrollamos la técnica ANOVA 1) para probar la significancia global de la 
regresión estimada, es decir, para probar la hipótesis nula de que los verdaderos coeficientes 
de pendiente (parciales) son simultáneamente iguales a cero, y 2) para evaluar la contribución 
incremental de una variable explicativa. La técnica ANOVA se amplía fácilmente al caso de k 
variables. Recuerde que la técnica ANOVA consiste en descomponer la SCT en dos componen- 
tes: la SCE y la SCR. Ya dimos las expresiones matriciales para estas tres sumas de cuadrados en 
(C.3.16), (C.3.17) y (C.3.18), respectivamente. Los grados de libertad asociados con estas sumas 
de cuadrados son n — 1, k — 1 y n — k, respectivamente. (¿Por qué?) Entonces, según el capítulo 
8, tabla 8.1, podemos elaborar la tabla C.2. 

Si suponemos que las perturbaciones u; están normalmente distribuidas y la hipótesis nula es 
B2= f3 = - - - = P = 0 y, de acuerdo con el capítulo 8, se demuestra que 


BXy—nY72)/(k=1 
pa (B'X'y n A ) (C.7.1) 
(yy — PX'y)/(n — k) 
sigue la distribución F con k — 1 y n — k gl. 
En el capítulo 8 vimos que, según los supuestos postulados antes, existe una estrecha relación 
entre F y R?, a saber: 


RA(k-—1 
a E (8.4.11) 
(= R3 /(n = k) 
Por consiguiente, la tabla C.2 ANOVA se expresa como tabla C.3. Una ventaja de la tabla C.3 
sobre la tabla C.2 es que la totalidad del análisis se realiza en términos de R?; no se requiere con- 
siderar el término (yy — nY?), pues éste se cancela en la razón F. 


Origen de la variación SC gl SCM 
Debido a la regresión ĝ'X'y -nY? k=] Bxy - n7? 
(es decir, debido a X3, X3,..., Xx) NS 
yy — $ Xy 
Debido a los residuos yy -B Xy n= k n=k 


Total yy nv? m=i 


TABLA C.3 

Tabla ANOVA de k va- 
riables en forma matri- 
cial en términos de R? 
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Origen de la variación SC gl SCM 
> Ry y — nv? 
Debido a la regresión R? y — nY?) ki Y 
decir, debido a X2, X3,..., X AE 
e n a o RI y? Pa (1 —RIYy nv) 
ON RON 
Total yy nv? n= 1 


C.8 Pruebas de restricciones lineales: 


prueba F general con notación matricial 


En la sección 8.6 presentamos la prueba general F para verificar la validez de las restricciones 
lineales impuestas sobre uno o más parámetros del modelo de regresión lineal de k variables. 
Proporcionamos la prueba correspondiente en (8.6.9) [o su equivalente, ecuación (8.6.10)]. La 
matriz correspondiente a (8.6.9) se deriva fácilmente. 

Sea 


Úg = vector residuo de la regresión de mínimos cuadrados restringidos 
Únr = vector residuo de la regresión de mínimos cuadrados no restringidos 
Entonces 
ûkûr = » 602 = SCR de la región restringida 
a A pa a — Sf è . 
ig ÛNR = za ür = SCR de la región no restringida 
m = número de restricciones lineales 
k = número de parámetros (incluido el intercepto) en la regresión no restringida 
n = número de observaciones 


La matriz correspondiente a (8.6.9) es entonces 
_ (ûkûr — Ûnrûng)/ m 
(Un Únp)/ (7 = k) 
que sigue la distribución F con (m, n — k)gl. Como es usual, si el valor F calculado a partir de 


(C.8.1) excede al valor F crítico, rechazamos la regresión restringida; de lo contrario, no la re- 
chazamos. 


(C.8.1) 


C.9 Predicción mediante regresión múltiple: formulación matricial 


En la sección 8.8 analizamos, mediante notación escalar, la forma en que la regresión múltiple 
estimada predice (1) la media y (2) los valores individuales de Y, dados los valores de las regre- 
soras X. En esta sección veremos cómo expresar estas predicciones en forma matricial. También 
presentamos las fórmulas para estimar las varianzas y los errores estándar de los valores pronos- 
ticados; en el capítulo 8 vimos que estas fórmulas se trabajan mejor mediante notación matricial, 
pues las expresiones escalares o algebraicas de estas fórmulas llegan a ser inmanejables. 


Predicción media 
Sea 


Xo = | Xo3 (C.9.1) 
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el vector de valores de las variables X para las cuales se desea predecir Yo, la predicción media 
de Y. 
Ahora la regresión múltiple estimada en forma escalar es 


Ê, = ĝi + Box + AX + ÊrXri + ui (C.9.2) 
la cual en notación matricial se escribe de manera compacta como: 
Y, = xÊ (C.9.3) 
donde x; = [1 Xz; X3; -++ Xil y 
Êi 
A 
p=]. 
Êr 
La ecuación (C.9.2) o (C.9.3) es, por supuesto, la predicción media de Y; que corresponde a una 
x; dada. 
Si x; es igual a la de (C.9.1), (C.9.3) se convierte en 
CÊ, 1x0) =x6B (C.9.4) 


donde, por supuesto, los valores de xy están especificados. Observe que (C.9.4) da una predicción 
insesgada de E( Y; | x6), pues E(x0B) = x0B. (¿Por qué?) 


Varianza de la predicción media 
La fórmula para estimar la varianza de NA | xo) es la siguiente:? 


var (Yo 1x0) = 0x0 X) xp (C.9.5) 


donde 0? es la varianza de u,, xp son los valores dados de las variables X para los cuales se desea 
predecir, y (X'X) es la matriz dada en (C.3.9). En la práctica reemplazamos o? por su estimador 
insesgado 67. 

En la siguiente sección ilustramos la predicción media y su varianza. 


Predicción individual 

Como sabemos de los capítulos 5 y 8, la predicción individual de Y(= Yo) también está dada por 
(C.9,3), o en forma más específica por (C.9.4). La diferencia entre las predicciones de la media y 
la individual consiste en sus varianzas. 


Varianza de la predicción individual 
La fórmula para la varianza de una predicción individual es la siguiente:? 


var (Yo | xo) =0?[1 + x (XX)! x0] (C.9.6) 


donde var(Y, | xp) representa E[Y, — Y, | X]?. En la práctica, sustituimos a? por su estimador 
insesgado 67. En la siguiente sección ilustraremos esta fórmula. 


7 Para la derivación, véase J. Johnston, Econometric Methods, McGraw-Hill, 3a. ed., Nueva York, 1984, pp. 
195-196. 


8 Ibid. 
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C.10 Resumen del método matricial: un ejemplo ilustrativo 


TABLA C.4 

Gasto de consumo 
personal per cápita 
(GCPP) e ingreso 
personal disponible per 
cápita (IPDP) en Estados 
Unidos, 1956-1970, en 
dólares de 1958 


Fuente: Economic Report of the 
President, enero de 1972, tabla 
B-16. 


Considere los datos de la tabla C.4, los cuales pertenecen al gasto de consumo personal per cápita 
(GCPP) y al ingreso personal disponible per cápita (IPDP), así como al tiempo o la variable de 
tendencia. Al incluir esta última en el modelo, tratamos de averiguar la relación del GCPP con 
el IPDP neto de la variable de tendencia (que puede representar una multitud de otros factores, 
como tecnología, cambio en gustos, etcétera). 

Para fines empíricos, por consiguiente, el modelo de regresión es 


Y; = Êi + PX + ÊsX3i + 01 (C.10.1) 
donde Y = gasto de consumo per cápita, X) = ingreso disponible per cápita y X3 = tiempo. La 


información requerida para efectuar la regresión (C.10.1) se proporciona en la tabla C.4. 
En notación matricial, el problema puede mostrarse de la siguiente manera: 


1 673 1 1839 1 1 

1 688 1 1844 2 ía 

1 666 1 1831 3 ûz 

1735 1 1881 4 û4 

1 749 1 1883 5 ûs 

1756 1 1910 6 Ñ ûs 

1815 1 1969 7 Bi ûz 

1867 |=| 1 2016 8 Ê |+| ûs (C.10.2) 

1 948 1 2126 9 As ño 

2 048 1 2239 10 di 

2 128 1 2336 11 dis 

2 165 1 2404 12 o 

2257 1 2487 13 13 

2316 1 2535 14 Dra 

2 324 1 2595 15 as 

y = X p + 4 

15x1 15x3 3x1 15x1 
GCPP, Y IPDP, X2 Tiempo, X3 GCPP, Y IPDP, X2 Tiempo, X3 
1673 1 839 1 (= 1956) 1 948 2126 9 
1 688 1 844 2 2 048 2 239 10 
1 666 1 831 3 2128 2 336 11 
1735 1 881 4 2165 2 404 12 
1749 1 883 5 2257 2 487 13 
1756 1910 6 2316 2 535 14 
1815 1969 7 2324 2 595 15 (= 1970) 
1867 2016 8 
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De los datos anteriores obtenemos los siguientes resultados: 
Y = 1 942.333 X, = 2 126.333 

Y (Y, — YY = 830 121.333 

Dee — X3)? = 280.0 


X = 8.0 


Y (Xa; — X2}? = 1 103 111.333 


1 X1 X1 
1 1 A | Xj X32 
XX=]| Xi X2 Xz Xn X23 X33 
X31 X32 X33 X3n : : : 
1 Xan X3n 
n 5 Xni y X3j 
= YX NI X Xz Xy 
EX XiX% NX 
15 31 895 120 
= | 31 895 68 922.513 272 144 (C.10.3) 
120 272 144 1240 
29 135 
X'y = | 62 905 821 (C.10.4) 
247 934 
Mediante las reglas de inversión de matrices del apéndice B se ve que 
37.232491  —0.0225082 1.336707 
(XX)! = | -0.0225082  0.0000137 —0.0008319 (C.10.5) 
1.336707  —0.0008319 0.054034 
Por consiguiente, 
$ 300.28625 
P=(X'X)'X’y=| 0.74198 (C.10.6) 
8.04356 
La suma de cuadrados residual ahora se calcula así: 
5 ù? =ûûů 
= vy— YX 
raay 29 135 
= 57 420 003 — [300.28625 0.74198 8.04356] | 62 905 821 
247 934 
= 1 976.85574 
(C.10.7) 
de donde obtenemos 
= D = 164.73797 (C.10.8) 
Por tanto, la matriz de varianza-covarianza para B se presenta como 
` 6 133.650 —3.70794 220.20634 
var-cov(B) = ô6°(X'X) ~! = —3.70794 0.00226 —0.13705 
220.20634 —0.13705 8.90155 


(C.10.9) 
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Los elementos diagonales de esta matriz dan las varianzas de £1, 2 y b3, respectivamente, y sus 
raíces cuadradas positivas dan los errores estándar correspondientes. 
De los datos anteriores se verifica fácilmente que 


SCE: $'X' y — nY? = 828 144.47786 (C.10.10) 
SCT: yy — nY? = 830 121.333 (C.10.11) 
Por consiguiente, 
R?— pxy-nP 
yy — nY? 
_ 828 144.47786 (C.10.12) 
830 121.333 oo 
= 0.99761 


Aplicamos (7.8.4) y se ve que el coeficiente de determinación ajustado es 
R? = 0.99722 (C.10.13) 
Reunimos los resultados obtenidos hasta ahora y tenemos 
Y, = 300.28625 + 0.74198X>; + 8.04356X3; 
(78.31763) (0.04753) (2.98354) 


t= (3.83421) (15.60956) (2.69598) 
R? = 0.99761 R? = 0.99722 gl=12 


(C.10.14) 


La interpretación de (C.10.14) es: si tanto X2 como X; reciben un valor fijo de cero, el valor pro- 
medio del gasto de consumo personal per cápita se estima alrededor de $300. Como es usual, de- 
bemos tomar con cautela esta interpretación mecánica del intercepto. El coeficiente de regresión 
parcial de 0.74198 significa que, al mantener todas las otras variables constantes, un incremento 
en el ingreso per cápita de un dólar, por ejemplo, es acompañado por un incremento en el gasto 
de consumo personal per cápita medio de alrededor de 74 centavos de dólar. En resumen, se es- 
tima que la propensión marginal a consumir sea de alrededor de 0.74 o 74%. En forma similar, si 
mantenemos constantes todas las otras variables, el gasto de consumo personal per cápita medio 
aumentó a una tasa de alrededor de $8 por año durante el periodo del estudio, 1956-1970. El valor 
R? de 0.9976 muestra que las dos variables explicativas representaron más de 99% de la variación 
en el gasto de consumo per cápita en Estados Unidos de 1956 a 1970. Aunque R? se reduce un 
poco, continúa muy elevada. 

De regreso a la significancia estadística de los coeficientes estimados, a partir de (C.10.14) 
observamos que cada coeficiente estimado es estadísticamente significativo individualmente, en 
un nivel de significancia de 5%, por ejemplo: las razones entre los coeficientes estimados y sus 
errores estándar (es decir, las razones f) son 3.83421, 15.61077 y 2.69598, respectivamente. 
Mediante una prueba f de dos colas en el nivel de significancia de 5% observamos que el valor t 
crítico para 12 gl es 2.179. Cada valor £ calculado excede este valor crítico. Por tanto, en lo indi- 
vidual, podemos rechazar la hipótesis nula de que el verdadero valor poblacional del coeficiente 
relevante es cero. 

Como ya vimos, no es posible aplicar la prueba £ usual para verificar la hipótesis de que 62 
= f3 = 0 simultáneamente, porque el procedimiento de prueba £ supone tomar una muestra 
independiente cada vez que se aplica una prueba /. Si utilizamos la misma muestra para probar 
la hipótesis sobre £2 y 3 al mismo tiempo, es probable que los estimadores 62 y f3 estén corre- 
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TABLA C.5 
Tabla ANOVA para los 
datos de la tabla C.4 


Origen de la variación SC gl SCM 
Debido a X2, X3 828 144.47786 2 414 072.3893 
Debido a los residuos 1 976.85574 12 164.73797 
Total 830 121.33360 14 


lacionados, lo que viola el supuesto en el cual se basa el procedimiento de la prueba t. ? En reali- 
dad, la matriz de varianza-covarianza de B de (C.10.9) muestra que los estimadores Ê y Ba están 
correlacionados negativamente (la covarianza entre los dos es —0.13705). Por tanto, no podemos 
utilizar la prueba f para probar la hipótesis nula de que 62 = $3 = 0. 

Sin embargo, recuerde que una hipótesis nula como $, = f3 = 0, simultáneamente, se prueba 
con la técnica del análisis de varianza y la tradicional prueba F, que presentamos en el capítulo 8. 
Para este problema, la tabla del análisis de varianza es la tabla C.5. Según los supuestos usuales, 
obtenemos 


_ 414 072.3893 


=2 513.52 (C.10.15) 
164.73797 


cuya distribución es igual a la distribución F con 2 y 12 gl. El valor F calculado es, obviamente, 
muy significativo; rechazamos la hipótesis nula de que $, = 3 = 0, es decir, el gasto de consumo 
personal per cápita no está relacionado linealmente con el ingreso disponible per cápita ni con 
la tendencia. 

En la sección C.9 estudiamos el mecanismo de pronóstico, de la media e individual. Suponga 
que para 1971 la cifra del IPDP es $2 610 y deseamos pronosticar el GCPP correspondiente a 
esta cifra. Entonces, la proyección media y la individual del GCPP para 1971 es la misma y está 
dada por 


(PPCE¡971 | IPDP¡971, X3 = 16) = X/97¡$ 


300.28625 
=[1 2610 16] 0.74198 (C.10.16) 


8.04356 
= 2 365.55 


donde empleamos la ecuación (C.9.3). 
Como sabemos por la sección C.9, las varianzas de Y¡971 y Y¡97, son diferentes y son las si- 
guientes: 


o 22 -1 
var (Yi971 | X97,) = 0 [X197¡ (XX) x197] 


1 
= 164.73797[1 2610 16(XX)”| 2610 (C.10.17) 
16 


donde (X"X)7! es como se muestra en (C.10.5). Al sustituir esto en (C.10.17), el lector debe 
verificar que 


var (1971 | Xj971) = 48.6426 (C.10.18) 


? Para mayor detalle, véase la sección 8.4. 


C.11 Mínimos 
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y por consiguiente, 
ee(Yi971 1X 1971) = 6.9744 
Dejamos al lector verificar, mediante (C.9.6), que 


var (Y1971 |X 971) = 213.3806 (C.10.19) 


ee (Y¡971 |x'1971) = 14.6076 


: z % / 2 
Nota: var (Y¡971 |Xx1971) = El Yon — Yi971 |x1971] . 
En la sección C.5 presentamos la matriz de correlación R. Para los datos, la matriz de corre- 
lación es la siguiente: 


Y X Y 
y a 0.9980 0.9743 
R= X, | 0.9980 1 0.9664 (C.10.20) 


X3 | 0.9743 0.9664 1 


Observe que en (C.10.20) colocamos al margen de la matriz de correlación las variables del 
modelo, de forma que se identifiquen fácilmente las variables incluidas en el cálculo del coefi- 
ciente de correlación. Así, el coeficiente 0.9980 en el primer renglón de la matriz (C.10.20) es 
el coeficiente de correlación entre Y y X> (es decir, r12). A partir de las correlaciones de orden 
cero de la matriz de correlación (C.10.20) se derivan con facilidad los coeficientes de correlación 
de primer orden (véase el ejercicio C.7). 


cuadrados generalizados (MCG) 


En diversas ocasiones mencionamos que los MCO son un caso especial de los MCG. Para 
apreciar esto, regresemos a la ecuación (C.2.2). Con el objeto de tomar en cuenta las varianzas 
heteroscedásticas [los elementos de la diagonal principal de (C.2.2)] y las autocorrelaciones en 
los términos de error [los elementos que no están en la diagonal principal de (C.2.2)], supone- 
mos que 


E(uu') = 0?V (C.11.1) 


donde V es una matriz de n x n conocida. 
En consecuencia, si el modelo es: 


y=Xß+u 


donde E(u) = 0 y var-cov(u) = 0?V. En caso de que no se conozca o°, lo cual suele suceder, 
V representa la estructura supuesta de las varianzas y de las covarianzas entre los errores alea- 
torios uz. 

Conforme a la condición impuesta de la varianza-covarianza de los términos de error, se de- 
muestra que: 


pre = (XVAX) XV ly (C.11.2) 


B'“ se conoce como estimador de mínimos cuadrados generalizados (MCG) de $. 
También se demuestra que 


var-cov(B"“8) = o? X"V Xy"! (C.11.3) 


Se puede probar que B""“S es el mejor estimador lineal insesgado de $B. 


868 Apéndice C Método matricial para el modelo de regresión lineal 


Si se supone que la varianza de cada término de error es la misma constante o? y que los tér- 
minos de error están mutuamente no correlacionados, la matriz V se reduce a la matriz identidad, 
como se ve en (C.2.3). Si los términos de error no están mutuamente correlacionados pero tienen 
varianzas distintas (es decir, heteroscedásticas), la matriz V será diagonal, con varianzas diferen- 
tes a lo largo de la diagonal principal. Desde luego, si hay heteroscedasticidad y autocorrelación, 
la matriz V tendrá entradas en la diagonal principal y fuera de ella. 

El verdadero problema en la práctica consiste en que desconocemos g^, así como las varianzas 
y covarianzas verdaderas (es decir, la estructura de la matriz V). Como una solución, recurrimos 
al método de mínimos cuadrados generalizados estimados, o factibles (MCGE). En dicho 
método calculamos primero el modelo mediante MCO y pasamos por alto los problemas de la 
heteroscedasticidad y/o la autocorrelación. Obtenemos los residuos a partir de este modelo y 
de la matriz de varianza-covarianza (estimada) del término de error mediante la sustitución de 
las entradas de la expresión que está justamente antes de (C.2.2) por los u estimados, a saber: 2. 
Se puede demostrar que los estimadores de MCGE son estimadores consistentes de los MCG. 
Simbólicamente, 


2 


per = VD (X'y) (C.11.4) 
var-cov (B™8°) = XV! x)7! (C.11.5) 


donde V es una estimación de V. 


C.12 Resumen y conclusiones 


TABLA C.6 

Modelo de regresión con 
k variables en unidades 
originales y en forma de 
desviación* 


El propósito principal de este apéndice fue introducir el enfoque matricial al modelo clásico de 
regresión lineal. Aunque presentamos muy pocos conceptos nuevos del análisis de regresión, la 
notación matricial proporciona un método compacto para abordar los modelos de regresión lineal 
con cualquier número de variables. 

Al concluir este apéndice observe que si las variables X y Y se miden en forma de desviacio- 
nes, es decir, como desviaciones de sus medias muestrales, hay pocos cambios en las fórmulas 
presentadas antes. Estos cambios se enumeran en la tabla C.6.1% Como muestra dicha tabla, en 


Unidades originales Formas de desviación 


y=XP+ú (C.3.2) y=XB+ú 
La columna de 1 en la matriz X 
se elimina (¿Por qué?) 


B=000 "Xy  (C.3.11) Igual 
var-cov ($) = 0 (XX) (C.3.13) Igual 
Wú=yy -—P'Xy  (C.3.18) Igual 
YN y? =yy-nY?  (C.3.16) Ey = (C.12.1) 
SCE=PB'X'y — ný?  (C.3.17) SCE=PB'X'y (C.12.2) 
Y! y2 DU 
R= a > (C.4.2) P= T (C.12.3) 


* Observe que, a pesar de que en ambos casos los símbolos para las matrices y los vectores son iguales, en la forma de desviación se 
supone que los elementos de las matrices y de los vectores son desviaciones y no datos simples. Observe además que en la forma de 
desviación $ es de orden k —1 y la var-cov($) es de orden (k — 1)(k — 1). 


10 En estos días de computadoras de alta velocidad quizá no sea necesaria la forma de desviación; pero sim- 
plifica las fórmulas y, por consiguiente, los cálculos si trabaja con calculadora de escritorio y maneja cifras 
grandes. 
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la forma de desviaciones, se elimina de la SCT y de la SCE la corrección para la media nY?. 
(¿Por qué?) Esta pérdida genera un cambio en la fórmula para R?. Por lo demás, la mayoría de 
las fórmulas desarrolladas en las unidades originales de medición se mantiene para la forma 
de desviación. 


EJERCICIOS 


(Coil. 


C2, 


Coi 


C.4. 


Para el ejemplo ilustrativo analizado en la sección C.10, la X'X y la X'y, con la informa- 
ción en forma de desviación, son las siguientes: 


re _ [1 103 111.333 16984 
a | 16 984 A 
a EE 

14 854.000 


a) Estime 6) y B3. 

b) ¿Cómo estimaría 61? 

c) Estime la varianza de Bo y Ba y SUS COVarlanzas. 

d) Obtenga R? y R?. 

e) Al comparar los resultados con los de la sección C.10, ¿qué ventajas encuentra en la 
forma de desviación? 

Consulte el ejercicio 22.23. Con los datos proporcionados en dicho ejercicio, defina la ma- 

triz (XX) y el vector Xy; asimismo, calcule el vector parámetro f y su matriz de varianza- 

covarianza. También obtenga R?. ¿Cómo demostraría la hipótesis de que las elasticidades 

de M1 respecto del PIB y la tasa de interés R son numéricamente iguales? 

Prueba sobre la igualdad de dos coeficientes de regresión. Suponga que tenemos el si- 

guiente modelo de regresión: 


Ya = [ar (0 0 T (469 e 0 


y desea probar la hipótesis de que 2 = 63. Si supone que los u; están normalmente distri- 
buidos, se demuestra que 


Êz — És 
[yar (2) + var (B3) = 2 cov (Ba, $3) 


sigue la distribución £ con n — 3 gl (véase la sección 8.5). (En general, para el caso de k 
variables, los gl son n — k.) Por consiguiente, con la prueba f anterior se prueba la hipótesis 
nula Ba = B3. 

Con la prueba ż anterior, verifique la hipótesis de que los verdaderos valores de 62 y 63 
en la regresión (C.10.14) son idénticos. 

Sugerencia: utilice la matriz var-cov de $ dada en (C.10.9). 


= 


Forma de expresar correlaciones de orden superior en términos de correlaciones de orden 
inferior. Los coeficientes de correlación de orden p se expresan en términos de los coefi- 
cientes de correlación de orden p — 1 mediante la siguiente fórmula de reducción: 


E — F12345..(p-1) — l"1p.345..(p-1)42p345..(p-1)] 
12.345..p = 
C 
IASA) DAS pal) 
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Así, 
112 = Naa 


miaa = 
y L=ri3y1=ré3 


igual a la obtenida en el capítulo 7. 
Con la siguiente matriz de correlación: 
Y Xa X3 X4 Xs 
Y | 1 0.44 —0.34 —0.31 —0.14 


Xa 1 0.25 —0.19 —0.35 
R= X 1 0.44 0.33 
Xa4 1 0.85 
X;5 il 
Encuentre lo siguiente: 
a) 112345 b) 51234 c) ADE 
d) r13.245 €) 71324 Í) ri32 


C.5. Forma de expresar coeficientes de regresión de orden superior en términos de coeficien- 


C.6. 


CTh 


C.8. 


tes de regresión de orden inferior. Un coeficiente de regresión de orden p se expresa en 
términos de un coeficiente de regresión de orden p — 1 mediante la siguiente fórmula de 
reducción: 


B12.345.(p-1) — [Bip.345.p-0Bp2345..(p1)] 


os - - 
l = rr IA di) 


A p12 — Bi3B32 
mag= =— — 
l = P23Ps2 
donde $123 es el coeficiente de la pendiente en la regresión de y sobre X si X; se mantiene 
constante. En forma similar, 612.34 es el coeficiente de la pendiente en la regresión de Y 
sobre X si se mantienen constantes X3 y X4, y así sucesivamente. 

Con la fórmula anterior, encuentre expresiones para los siguientes coeficientes de 
regresión en términos de coeficientes de regresión de orden menor: PIa haaa 5y 
B1234- 

Establezca la siguiente identidad: 


B1238B23.1B31.2 IM AMIGA 


Para la matriz de correlación R de (C.10.20), encuentre todos los coeficientes de correla- 
ción parcial de primer orden. 

Al estudiar la variación en las tasas de criminalidad en algunas ciudades grandes de Esta- 
dos Unidos, Ogburn obtuvo la siguiente información:* 


ro Ya Xa 


Y=199  S¡=7.9 y i 0a A! 
TW  S2=13 X 1 025 EDO 025 
X3=102 &=46 R=X; 1 0.44 0.33 
X4=481.4 S= TAA Da 1 0.85 
X; =41.6 S; = 10.8 X; 1 


* W.F. Ogburn, “Factors in the Variation of Crime among Cities”, Journal of American Statistical Association, 
vol. 30, 1935, p. 12. 


C.9. 
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donde Y = tasa de criminalidad, número de delitos conocidos por cada mil personas 
X> = porcentaje de habitantes masculinos 
X3 = porcentaje del total de habitantes masculinos nacidos en el exterior 
X4 = número de niños menores de 5 años por cada mil mujeres casadas entre los 15 
y los 44 años de edad 
X; = pertenencia a alguna iglesia, número de miembros de la iglesia de 13 años 
de edad o mayores por cada 100 personas de la población total de 13 años de 
edad y superior; de Sı a S5 son las desviaciones estándar muestrales de las 
variables Y hasta X5, y R es la matriz de correlación. 
a) Trate Y como variable dependiente, obtenga la regresión de Y sobre las cuatro variables 
X e interprete la regresión estimada. 
b) Obtenga r123, 71435 Y 11534. 
c) Obtenga R? y pruebe la hipótesis de que todos los coeficientes de pendiente parciales 
son simultáneamente iguales a cero. 


En la siguiente tabla se proporcionan datos sobre la producción y costo total de producción 
de un bien en el corto plazo (véase el ejemplo 7.4). 


Producción Costo total, $ 


198 
226 
240 
244 
257 
260 
274 
297 
350 
420 


OVO0NXOou.a wn = 


== 


Para probar si los datos anteriores sugieren las curvas de costo promedio y de costo 
marginal en forma de U que por lo general se encuentra en el corto plazo, se puede utilizar 
el siguiente modelo: 


Y, = pı + bX; + bX? + PBaX + ui 


donde Y = costo total y X = producción. Las variables explicativas adicionales X? y X? 
son derivadas de X. 


a) Exprese los datos en la forma de desviación y obtenga (X'X),(X'y) y (X'X)7!. 
b) Estime b2, P3 y Pa. 
c) Estime la matriz var-cov de p. 
d) Estime £. Interprete ĝi en el contexto del problema. 
e) Obtenga R? y R°. 
f) A priori, ¿cuáles son los signos de 62, B3 y 4? ¿Por qué? 
g) De la función de costo total anterior, obtenga expresiones para las funciones de costo 
marginal y promedio. 
h) Ajuste las funciones de costo promedio y marginal a los datos y comente sobre el 
ajuste. 
i) Si 3 = p4 = 0, ¿cuál es la naturaleza de la función de costo marginal? ¿Cómo probaría 
la hipótesis de que 63 = 64 = 0? 
J) ¿Cómo derivaría las funciones de costo variable total y de costo variable promedio a 
partir de la información dada? 
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TABLA C.7 
Experiencia de la parti- 
cipación de la población 
urbana de bajos recur- 
sos en la fuerza laboral: 
área del censo, ciudad de 
Nueva York, 1970 


Fuente: Áreas del censo: Nueva 
York, Bureau of the Census, U.S. 
Department of Commerce, 1970. 


Núm. % en la fuerza Ingreso familiar Tamaño familiar Tasa de 

de área laboral Y* medio, X2 medio, X3 desempleo, Xa* 
137 64.3 1 998 2.95 4.4 
139 45.4 1114 3.40 3.4 
141 26.6 1 942 3.72 1.1 
142 87.5 1 998 4.43 3.1 
143 71.3 2 026 3.82 7.7 
145 82.4 1 853 3.90 5.0 
147 26.3 1 666 3.32 6.2 
149 61.6 1 434 3.80 5.4 
151 52.9 1513 3.49 12.2 
153 64.7 2 008 3.85 4.8 
155 64.9 1 704 4.69 2.9 
157 70.5 1525 3.89 4.8 
159 87.2 1 842 3.53 3.9 
161 81.2 1735 4.96 72 
163 67.9 1 639 3.68 3.6 


*Y = jefes de familia menores de 65 años. 
YX, = dólares. 
tX, = porcentaje de la fuerza laboral civil desempleada. 


C.10. Con el fin de estudiar la participación de las familias urbanas de bajos recursos (con ingre- 


sos menores a $3 943 en 1969) en la fuerza laboral, se obtuvieron los siguientes datos del 

Censo de Población de 1970. 

a) Con el modelo de regresión Y; = B1 + PB2X7; + P3X3; + B4X4i + ui obtenga las esti- 
maciones de los coeficientes de regresión e interprete sus resultados. 

b) A priori, ¿cuáles son los signos esperados de los coeficientes de regresión en el modelo 
anterior y por qué? 

c) ¿Cómo probaría la hipótesis de que la tasa global de desempleo no afecta la participa- 
ción en la fuerza laboral de la población urbana de bajos recursos en el área del censo 
de la tabla anterior? 


d) ¿Debe eliminarse alguna variable del modelo anterior? ¿Por qué? 
e) ¿Qué otras variables deben incluirse en el modelo? 


. En una aplicación de la función de producción Cobb-Douglas se obtuvieron los siguientes 


resultados: 


nY; = 2.3542 + 0.9576 In Xz; + 0.8242 In X3; 
(0.3022) (0.3571) 
P=082 g= 12 


donde Y = producción, X = insumo trabajo y X3 = insumo capital, y donde las cifras en 

paréntesis son los errores estándar estimados. 

a) Como mencionamos en el capítulo 7, los coeficientes de los insumos trabajo y capital 
en la ecuación anterior dan las elasticidades de la producción respecto del trabajo y el 
capital. Pruebe la hipótesis de que estas elasticidades son individualmente iguales a la 
unidad. 

b) Pruebe la hipótesis de que las elasticidades trabajo y capital son iguales, suponiendo 
i) que la covarianza entre los coeficientes estimados del trabajo y del capital es cero y 
ii) que es —0.0972. 


c) ¿Cómo probaría la significancia global de la ecuación de regresión anterior? 


ACA 


CAS 


C.14. 
“CAS 
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Exprese la función de verosimilitud para el modelo de regresión con k variables en no- 
tación matricial y muestre que f, el vector de estimadores de máxima verosimilitud, es 
idéntico a f el vector de estimadores de MCO del modelo de regresión con k variables. 


Regresión mediante variables estandarizadas. Considere las siguientes funciones de re- 
gresión muestral (FRM): 
Y; = ĝi + bx + Xi + û; (1) 
Y? = lon Alaa +b3X%, +7 (2) 
donde 
E 
1 Sy A 
Xai — X: 
X% = 2 2 
$2 M 
Xy — X: 
q Ê 22 
$3 


donde las letras s denotan las desviaciones estándar muestrales. Como vimos en el capí- 
tulo 6, sección 6.3, las variables con asterisco se conocen como variables estandarizadas. 
Tienen medias cero y desviaciones estándar unitarias (= 1). Exprese todas las variables en 
forma de desviaciones y demuestre lo siguiente para el modelo (2): 


a) xx=| l E 


F23 
b) Xy = a 
mG 
c) xx! 2 ES: "Y 1 — 103 
n(1— r33) T 1 
a ba | 1 1 =a 
b3 1 — r3; [113 — 723712 
e) i =0 


Establezca también la relación entre las b y las Ê. 

(Observe que en las relaciones anteriores, n denota el tamaño de la muestra; r12, r13 
y r23 denotan las correlaciones entre Y y X2, entre Y y X; y entre X2 y X3, respectiva- 
mente.) 


Verifique las ecuaciones (C.10.18) y (C.10.19). 
Minimos cuadrados restringidos. Suponga que 
y=Xß+u (1) 


la cual deseamos estimar sujeta a un conjunto de limitaciones o restricciones de igual- 
dad: 


R$ =r (2) 


donde R es una matriz conocida de orden qxk (q < k) y r es un vector conocido de q ele- 
mentos. Para ilustrar, suponga que nuestro modelo es 


Y, = Bi + B2Xo + 3X3: + PaXas + BsAs; + ui (3) 


* Opcional. 
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y suponga que deseamos estimar este modelo sujeto a estas restricciones: 


b2 SE B3 = 0) (4) 

Pa+Bs=1 
Con algunas de las técnicas estudiadas en el capítulo 8 podemos incorporar estas restric- 
ciones (por ejemplo, 62 = B3 y B4= 1 — $s, y eliminar así 62 y Ba4 del modelo) y probar 
la validez de estas restricciones mediante la prueba F allí tratada. Pero una forma más 
directa de estimar (3) incorporando las restricciones (4) directamente en el procedimiento 
de estimación es expresar primero las restricciones en la forma de la ecuación (2), que en 
el presente caso se convierte en 


01-100 0 
R= |) ooi il =] 6) 
Al permitir que $“ denote el estimador de mínimos cuadrados restringidos, se demuestra 
que $” se estima mediante la siguiente fórmula:* 

P"=8$ + (XX) RIRQUX) "RT "(r — R) (6) 
donde B es el estimador usual (no restringido) calculado mediante la fórmula usual 
XX) Xy. 

a) ¿Cuál es el vector £ en (3)? 
b) Con este vector $, verifique que la matriz R y el vector r dados en (5) incorporan en 
realidad las restricciones especificadas en (4). 
c) Escriba la matriz R y el vector r en los siguientes casos: 
i) b2 = P3= Pa=2 
ii) p2= f3 y  Pa=Bs 
iii) p2 — 33 = 5p4 
iv) b2 + 363 =0 
d) ¿Cuándo será $" = B? 


Apéndice CA 


CA.I Derivación de k ecuaciones normales o simultáneas 


Al diferenciar 


SI Êi — BrXa >> — Êr X ri) 
parcialmente respecto de Br Ê, AT Br obtenemos 
y? A A A 
= Tyne aeaa 
1 
ay ~ K à 
2 =2 Y (Mi — Bi — BrXas — >> PiX Xas) 
9B2 
y? A R A 
z £ =2 0 = fa = oa = e = e A) 
k 


Igualamos a cero las derivadas parciales anteriores, reordenamos los términos y obtenemos las k ecuaciones 
normales dadas en (C.3.8). 


* Véase J. Johnston, op. cit., p. 205. 
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CA.2 Derivación matricial de las ecuaciones normales 


A partir de (C.3.7) obtenemos 
Wá= yy —2$'X'y + P'X'XB 
Con las reglas de diferenciación matricial del apéndice B, sección B.6, obtenemos 


Wi 7 
GA L Xy+ 2XXÂ 
aß 


Igualamos a cero la ecuación anterior y obtenemos 
(XX)B = X'y 
de donde B = (XX) X'y siempre que exista la inversa. 


A 


CA.3 Matriz de varianza-covarianza de f 


De (C.3.11) obtenemos 
Ê = (Xx) Xy 
Sustituimos y = XP + u en la expresión anterior y obtenemos 


B=(XX)"X(XB+u) 


= (XX) XXB+(XX) Xu (1) 
=ßB+ XX) Xu 
Por consiguiente, 
Ê -B= XX) Xu (2) 


Por definición, 
var-cov(B) = EKÊ — PÊ — By] 
= E((XX) Xu lx Xx) Xu] (3) 
= E[(XX) 'X’'uu'X(X'X) '] 


donde en el último paso aprovechamos que (AB/= B'A’. 
Como las X son no estocásticas, al tomar el valor esperado de (3) obtenemos: 


var-cov Ê) = AX X E(ww)X(X'X) ! 
=(XX) 'X’'o IX(X'X) ! 
=P EON" 


que es el resultado de (C.3.13). Observe que al derivar el resultado anterior empleamos el supuesto de que 
E(uu/) = 0?L 


CA.4 Propiedad MELI de los estimadores de MCO 


De (C.3.11) tenemos que 


B=(XX) "Xy a) 


Como (X"X)7LX' es una matriz de números fijos, B es una función lineal de Y. Por tanto, por definición, es 
un estimador lineal. 
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Recuerde que la FRP es 
y=XPB+u (2) 
Sustituimos esto en (1) y obtenemos 
Ê = 0 X(XB+u) 6) 
=B+(XX) Xu (4) 


porque (XX)7!X'X = I. 
Tomamos el valor esperado de (4) y da 


EÊ) = E(B) + (XX) "X'E(u) 


=B (5) 
porque EÊ) = P (¿por qué?) y E(u) = 0 según los supuestos, lo cual indica que B es un estimador insesgado 
de B. 
Sea B* cualquier otro estimador lineal de $, el cual se escribe como 
p" = [XVX + Cly (6) 


donde C es una matriz de constantes. 
Al sustituir y de (2) en (6), obtenemos 


$" = (XXX + CXR + u) 


=P+CXB+(XX) Xu + Cu a 
Ahora, si p* es un estimador insesgado de B, debemos tener 
CX=0 (¿Por qué?) (8) 
Con (8), (7) se escribe así: 
$P*-B=(XX) 'X'u + Cu (9) 
Por definición, la matriz de var-cov(B*) es 
E(B* — BIAB* — BY = ELXX) Xu +Cu][(XX) Xu + Cu] (10) 


Empleamos las propiedades de inversión y trasposición de matrices y después de simplificación algebraica 
para obtener 


var-cov (Î*) =0UX Xx)! + 0200" 
= var-cov ($) + o?CC' (11) 


lo cual indica que la matriz de varianza-covarianza del estimador lineal e insesgado alterno p* es igual a la 
matriz de varianza-covarianza del estimador MCO, $ más a? veces CC”, que es una matriz semidefinida* 
positiva. Por tanto, las varianzas de un elemento dado de f* deben ser necesariamente iguales o mayores al 
elemento correspondiente de f, lo cual demuestra que $ es MELI. Por supuesto, si C es una matriz nula, es 
decir, C = 0, entonces B*= f, lo que equivale a decir que si encontramos un estimador MELI, éste debe ser 
el estimador de mínimos cuadrados f. 


* Consulte las referencias del apéndice B. 
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TABLA D.1 

Áreas debajo de la 
distribución normal 
estandarizada 


Ejemplo 


Pr(0< Z<1.96) = 0.4750 


Pr(Z > 1.96) = 0.5 — 0.4750 = 0.025 0.4750 
Z 
0 1.96 

Z| 00 01 .02 .03 .04 .05  .06  .07  .08 09 
0.0 | .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359 
0.1 | .0398 .0438 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753 
0.2 | .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141 
0.3 | .1179 .1217 .1255 .1293 .1331 01368 1406 1443 .1480 .1517 
0.4 | .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879 
0.5 | .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224 
06l 257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549 
0.7 1.2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 .2852 
0.8 | .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133 
0.9 | .3159 .3186 .3212 .3238 .3264 .3289 .3315 .3340 .3365 .3389 
1.0 1.3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621 
1.1 1.3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830 
1.2 |.3849 .3869 .3888 .3907 .3925 .3944 .3962 .3980 .3997 .4015 
1.3 |.4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177 
1.4 |.4192 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319 
1.5 | .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441 
1.6 | .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545 
1.7 |.4454 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633 
1.8 | .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706 
1.9 |.4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767 
2.0 1.4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817 
2.1 1.4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857 
2.2 | .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890 
2.3 | .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916 
2.4 1.4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936 
2.5 1.4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952 
2.6 1.4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964 
2.7 1.4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974 
2.8 1.4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981 
2.9 | 4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986 
3.0 1.4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990 


Nota: Esta tabla da el área en la cola del lado derecho de la distribución (es decir, Z > 0). Pero como la distribución normal es 
simétrica alrededor de Z = 0, el área en la cola del lado izquierdo es la misma que el área en la cola correspondiente del lado 
derecho. Por ejemplo, P(—1.96 < Z < 0) = 0.4750. Por consiguiente, P(—1.96 < Z < 1.96) = 2(0.4750) = 0.95. 


TABLA D.2 
Puntos porcentuales de 
la distribución £ 


Fuente: De E. S. Pearson y H. O. 
Hartley (eds.), Biometrika Tables 
for Statisticians, vol. 1, 3a. ed., 
tabla 12, Cambridge University 
Press, Nueva York, 1966. Se re- 
produce con autorización de los 
editores y los fideicomisarios de 
Biometrika. 


Ejemplo 
Pr (t > 2.086) = 0.025 
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Pr(t > 1.725) = 0.05 para gl = 20 0.05 
Pr([t] > 1.725) = 0.10 
t 
0 1.725 

Pr 0.25 0.10 0.05 0.025 0.01 0.005 0.001 
gl 0.50 0.20 0.10 0.05 0.02 0.010 0.002 

1 1.000 3.078 6.314 12.706 31.821 63.657 318.31 
2 0.816 1.886 2.920 4.303 6.965 9.925 22327 
3 0.765 1.638 2359 3.182 4.541 5.841 10.214 
4 0.741 1.933 21122 RUDO 3.747 4.604 7.173 
5 0.727 1.476 2.015 DS) 3.365 4.032 5.893 
6 0.718 1.440 1.943 2.447 3.143 3.707 5.208 
7 0.711 1.415 1895 2.365 2.998 3.499 4.785 
8 0.706 1.307 1.860 2.306 2.896 DS) 4.501 
9 0.703 1.383 1.833 2.262 2.821 3.250 4.297 
10 0.700 1372 1.812 2.228 2.764 3.169 4.144 
11 0.697 1.363 1.796 2.201 2.718 3.106 4.025 
12 0.695 1.356 1.782 20179 2.681 3.055 3.930 
12 0.694 ESS0 1.771 2.160 2.650 3.012 3.852 
14 0.692 1.345 1.761 2.145 2.624 21977 3.787 
5 0.691 1.341 1.133 DANS 2.602 2.947 SBS 
16 0.690 1.337 1.746 220 2.583 22921 3.686 
17 0.689 1.338 1.740 2.110 2.567 2.898 3.646 
18 0.688 1.330 1.734 2.101 2.552 2.878 3.610 
18 0.688 1.328 16729 2.093 259 2.861 3979. 
20 0.687 15525 1.725 2.086 2.528 2.845 31552 
21 0.686 1523 1.721 2.080 2.518 2.831 3527 
22 0.686 1221 1717 2.074 2.508 2.819 3.505 
23 0.685 ¡ESTO 1.714 2.069 2.500 2.807 3.485 
24 0.685 1.318 1.711 2.064 2.492 2.797 3.467 
25 0.684 ¡EST 1.708 2.060 2.485 2.787 3.450 
26 0.684 LIIS 1.706 2.056 2.479 2I. 3.435 
27 0.684 1.314 1.703 21052 2.473 DÍ, 3.421 
28 0.683 15515 1.701 2.048 2.467 2.763 3.408 
29 0.683 ¡EST 1.699 2.045 2.462 2.756 3.396 
30 0.683 ¡ESTO 1.697 2.042 2.457 2.750 3.385 
40 0.681 1.303 1.684 2.021 2.423 2.704 3.307 
60 0.679 1.296 1.671 2.000 2.390 2.660 37282 
120 0.677 1.289 1.658 1.980 2.358 267 3.160 
00 0.674 1.282 1.645 1.960 2.326 2.576 3.090 


Nota: La probabilidad más baja que aparece en el encabezado de cada columna es el área en una cola; la probabilidad más alta 


es el área en ambas colas. 
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TABLA D.3 Puntos porcentuales superiores de la distribución F 


Ejemplo 
Pr(F > 1.59) = 0.25 


5% del área 


Pr(F > 2.42) =0.10 para gl N = 10 
A > 
Pr(F > 3.14) = 0.05 y N, =9 1% del área 
Pr(F > 5.26) = 0.01 3 
0 3.14 5.26 
gl para 
el deno- gl para el numerador N; 
minador 
N2 Pr 1 2 3 4 5 6 7 8 9 10 11 12 
.25 5.83 7.50 8.20 8.58 8.82 8.98 9.10 pe) 9.26 932 9.36 9.41 
1 O. E) 49.5 59:6 55.8 572 58.2 58.9 59.4 3919 60.2 60.5 60.7 
.05 161 200 216 225 230 234 2537 239 241 242 243 244 
.25 2257 3.00 aa 325 3.28 il 3.34 O NY 3538) 3739. 3.39 
2 10 8.53 9.00 9.16 9.24 929) 953 935 237) 9.38 939 9.40 9.41 
.05 18.5 19.0 11922 11922 195 19.3 19.4 19.4 19.4 19.4 19.4 19.4 
.01 98.5 9910 9912 992 993 9953 99.4 99.4 99.4 99.4 99.4 99.4 
25 2.02 2.28 2.36 239. 2.41 2.42 2.43 2.44 2.44 2.44 2.45 2.45 
3 10 5.54 5.46 5139. 5.34 5.31 5.28 S27 5.25 5.24 523 522 5.22 
¿OSOS SS 9.28 9.12 9.01 8.94 8.89 8.85 8.81 8.79 8.76 8.74 
.01 34.1 30.8 29.5 28.7 282 279) 277 275 273 PA) Do PIN 27 
.25 1.81 2.00 2.05 2.06 2.07 2.08 2.08 2.08 2.08 2.08 2.08 2.08 
4 SO) 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3195 3.94 3192 59 3.90 
.05 IA 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 5.96 5.94 Sl 
.01 ¿AN 2 18.0 16.7 16.0 155 152 15.0 14.8 14.7 14.5 14.4 14.4 
25 1.69 1.85 1.88 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 1.89 
5 10) 4.06 3.78 3.62 DA 3.45 3.40 SI 3.34 BS 3.30 3.28 3.27 
.05 6.61 5.79 5.41 519 5.05 4.95 4.88 4.82 4.77 4.74 4.71 4.68 
.01 16.3 13.3 12.1 11.4 11.0 10.7 10.5 10.3 10.2 10.1 9.96 9.89 
25 1.62 1.76 1.78 11.725) 1879! 1.78 1.78 1.78 IZ 1-27 1-27 17 
6 10 3.78 3.46 329 3.18 SL 3.05 3.01 2.98 2.96 2.94 2.92 2.90 
.05 S99 5.14 4.76 4.53 4.39 4.28 4.21 4.15 4.10 4.06 4.03 4.00 
.01 157% 10.9 9.78 9.15 8.75 8.47 8.26 8.10 7.98 7.87 VEND, 72 
25 ¡SY 1.70 1.72 72 1.71 UA 70, 1570 1.69 1.69 1.69 1.68 
7 10 350) 3.26 3.07 2.96 2.88 2.83 2.78 275 272 2.70 2.68 2.67 
.05 S99 4.74 4.35 4.12 3.97 3.87 S79 3.73 3.68 3.64 3.60 3.57 
.01 12.2 955 8.45 7.85 7.46 79 6.99 6.84 6.72 6.62 6.54 6.47 
.25 1.54 1.66 1.67 1.66 1.66 1.65 1.64 1.64 1.63 1.63 1.63 1.62 
8 10 3.46 Sal 292 2.81 273 2.67 2.62 259 2.56 2.54 252 2.50 
.05 5.32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 e) 3.35 Sail 3.28 
.01 DES 8.65 759 7.01 6.63 6537 6.18 6.03 SM 5.81 573 5.67 
.25 IES 1.62 1.63 1.63 1.62 1.61 1.60 1.60 So 15) 1.58 1.58 
9 10 3.36 3.01 2.81 2.69 2.61 2.55 25i 2.47 2.44 2.42 2.40 2.38 
.05 512 4.26 3.86 3.63 3.48 B7 3729 323 3.18 3.14 3.10 3.07 
.01 10.6 8.02 6.99 6.42 6.06 5.80 5.61 5.47 595 5.26 5.18 Sell 
(continúa) 


Fuente: De E.S. Pearson y H.O. Hartley (eds.), Biometrika Tables for Statisticians, vol. 1, 3a. ed., tabla 18, Cambridge University Press, Nueva York, 1966. 
Se reproduce con autorización de los editores y los fideicomisarios de Biometrika. 
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(continuación) 
gl para 
gl para el numerador N; el deno- 
minador 
15 20 24 30 40 50 60 100 120 200 500 00 Pr N2 
9.49 9.58 9.63 9.67 OE 9.74 9.76 9.78 9.80 9.82 9.84 OS 25 
61.2 61.7 62.0 62.3 62.5 62.7 62.8 63.0 63.1 63.2 63.3 63.3 10 1 
246 248 249 250 251 252 252 253 253 254 254 254 .05 
3.41 3.43 3.43 3.44 3.45 3.45 3.46 3.47 3.47 3.48 3.48 3.48 .25 
9.42 9.44 9.45 9.46 9.47 9.47 9.47 9.48 9.48 9.49 9.49 9.49 .10 2 
19.4 19.4 19.5 19.5 15 195 195 19.5 195 19.5 19.5 195 .05 
99.4 99.4 995 99.5 9915 99.5 99.5 995 99.5 99% 99.5 99.5 .01 
2.46 2.46 2.46 2.47 2.47 2.47 2.47 2.47 2.47 2.47 2.47 2.47 6.25 
5.20 5.18 5.18 Sl 5.16 5.15 S5 5.14 5.14 5.14 5.14 Sales SIO 3 
8.70 8.66 8.64 8.62 8.59 8.58 8.57 8.55 8.55 8.54 8.53 Ga MS 
26.9 26.7 26.6 26.5 26.4 26.4 26.3 26.2 26.2 26.2 26.1 26.1 .01 
2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2.08 2108 m25 
3.87 3.84 3.83 3.82 3.80 3.80 3.79 3.78 3.78 S 3.76 3.76 MO 4 
5.86 5.80 DY DD 5/2 5.70 5.69 5.66 5.66 5.65 5.64 OSOS 
14.2 14.0 13.9 13.8 187 137 IB 13.6 13.6 185 1885 135 .01 
1.89 1.88 1.88 1.88 1.88 1.88 1.87 1.87 1.87 1.87 1.87 T 25 
3.24 3.21 3.19 Sly 3.16 ZlS 3.14 115) Sa 2212 Sa SOLO 5 
4.62 4.56 4.53 4.50 4.46 4,44 4.43 4.41 4.40 4.39 4.37 4.36  .05 
972 9.55 9.47 9.38 929 9.24 9.20 9.13 9.11 9.08 9.04 9.02 0 
1.76 1.76 1.75 175 1.75 1.75 1.74 1.74 1.74 1.74 1.74 1.74 .25 
2.87 2.84 2.82 2.80 2.78 2.77 2.76 25 2.74 273 2073 AUZ O 6 
3.94 3.87 3.84 3.81 3.77 IS 3.74 3.71 3.70 3.69 3.68 3.67 W5 
7.56 7.40 23 7.23 7.14 7.09 7.06 6.99 6.97 6.93 6.90 6.88 .01 
1.68 1.67 1.67 1.66 1.66 1.66 1.65 1.65 1.65 1.65 1.65 IOS 25 
2.63 259 2.58 2.56 2.54 2.52 25] 2.50 2.49 2.48 2.48 2.47 10 7 
SS 3.44 3.41 3.38 3.34 332 3.30 S2 3.27 225 3.24 323 O05 
6.31 6.16 6.07 5.99 SM 5.86 5.82 S75 5.74 5.70 5.67 5.65 .01 
1.62 1.61 1.60 1.60 159 1,58 159 1.58 1.58 1.58 1.58 La 25 
2.46 2.42 2.40 2.38 2.36 2.35 2.34 22 232 2431 2.30 229m0 8 
2122 2215 12 3.08 3.04 2.02 3.01 2:97 2497) 205 2.94 203 WS 
5.52 5.36 5.28 5.20 SANZ 5.07 5:03 4.96 4.95 4.91 4.88 4.86 01 
157 1.56 1.56 1155 1.38 1.54 1.54 1.58 1.53 133 16538 LS 25 
2.34 2.30 2.28 225 223 2.22 221 2.19 2.18 2117 2a Ale O 9 
3.01 2.94 2.90 2.86 2.83 2.80 2.79 2.76 2.75 DI 2.72 2 MS 
4.96 4.81 4.73 4.65 4.57 4.52 4.48 4.42 4.40 4.36 4.33 4.31  .01 
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TABLA D.3 Puntos porcentuales superiores de la distribución F (continuación) 


gl para 
el deno- gl para el numerador Ny 
minador 
N2 Pr 1 2 3 4 5 6 7 8 9 10 11 12 
25 1.49 1.60 1.60 1.59 1.59 1.58 IES 156 1.56 SS ISS 1.54 
10 10 3.29 2.92 DS) 2.61 232 2.46 2.41 2.38 235 DIS 20) 2.28 
.05 4.96 4.10 7 3.48 335 322. 3.14 23107 3.02 2.98 2.94 2.91 
.01 10.0 7.56 6.55 5.99 5.64 5.39 5.20 5.06 4.94 4.85 4.77 4.71 
25 1.47 1.58 1.58 ¡SY 1.56 ¡SS 1.54 153 1,53 152 IES 2 ES] 
11 10 223 2.86 2.66 2.54 2.45 2.39 2.34 2.30 227 225 223 2.21 
.05 4.84 3.98 3.59 3.36 3.20 3.09 30 2.95 2.90 ZESS) 2.82 2.79 
.01 9.65 7.21 622 5.67 5.32 5.07 4.89 4.74 4.63 4.54 4.46 4.40 
25 1.46 1.56 1.56 ISS 1.54 1,33 1752 LS SA 1.50 1.50 1.49 
12 10 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2.24 22] 2.19 2 215 
ROS 4.75 3.89 3.49 3.26 SA 3.00 2.91 2.85 2.80 275 2.72 2.69 
.01 9.33 6.93 5.95 5.41 5.06 4.82 4.64 4.50 4.39 4.30 4.22 4.16 
25 1.45 IS SS 1,53 1,5% dsi 150 1.49 1.49 1.48 1.47 1.47 
13 Ko 3.14 2.76 2.56 2.43 235 228 223 2.20 2.16 2.14 PANZA 2.10 
.05 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2277 2.71 2.67 2:63 2.60 
.01 9.07 6.70 5.74 EZ] 4.86 4.62 4,44 4.30 4.19 4.10 4.02 3.96 
25 1.44 1253 1ES3 152 IESI 1.50 1.49 1.48 1.47 1.46 1.46 1.45 
14 10 3.10 23 252 2.39 23i 2.24 219 ZAS 202 2.10 2.08 2.05 
.05 4.60 3.74 3.34 53 2.96 2.85 2776 2.70 2.65 2.60 DES 253 
.01 8.86 6.51 5.56 5.04 4.69 4.46 4.28 4.14 4.03 3.94 3.86 3.80 
25 1.43 152 1752 ¡ES 1.49 1.48 1.47 1.46 1.46 1.45 1.44 1.44 
15 10 3.07 2770 2.49 2.36 227 221 216 212 2.09 2.06 2.04 2.02 
.05 4.54 3.68 3.29 3.06 2.90 2.79 271 2.64 2.59 2.54 ZESIÍ 2.48 
.01 8.68 6.36 5.42 4.89 4.56 4.32 4.14 4.00 3.89 3.80 273 3.67 
25 1.42 IAS] IES 1.50 1.48 1.47 1.46 1.45 1.44 1.44 1.44 1.43 
16 10 3.05 2.67 2.46 2458) 2.24 2.18 215 2.09 2.06 2.03 2.01 1.99 
.05 4,49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.46 2.42 
.01 8.53 6.23 5.29 4.77 4.44 4.20 4.03 3.89 3.78 3.69 3.62 BS) 
25 1.42 1:51 1.50 1.49 1.47 1.46 1.45 1.44 1.43 1.43 1.42 1.41 
17 10 3.03 2.64 2.44 25 | 222 ZAS) 2810) 2.06 2103 2.00 1.98 1.96 
.05 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.41 2.38 
.01 8.40 6.11 5.18 4.67 4.34 4.10 3.93 3.79 3.68 3.59 B52 3.46 
25 1.41 1.50 1.49 1.48 1.46 1.45 1.44 1.43 1.42 1.42 1.41 1.40 
18 10 20l 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.96 1.93 
.05 4,41 3755 3.16 2.93 27 2.66 2.58 Si 2.46 2.41 237 2.34 
.01 8.29 6.01 5.09 4.58 4.25 4.01 3.84 AZA 3.60 35l 3.43 3737 
25 1.41 1.49 1.49 1.47 1.46 1.44 1.43 1.42 1.41 1.41 1.40 1.40 
19 .10 2.99 2.61 2.40 227 2.18 2m 2.06 2.02 1.98 1.96 1.94 1.91 
.05 4.38 352 zl 2.90 2.74 2.63 2.54 2.48 2.42 238 2.34 231 
.01 8.18 95) 5.01 4.50 4.17 3.94 SI) 3.63 292 3.43 3.36 3.30 
P25 1.40 1.49 1.48 1.46 1.45 1.44 1.43 1.42 1.41 1.40 1.39 1.39 
20 .10 2.97 2.59 2.38 225 2.16 2.09 2.04 2.00 1.96 1.94 1.92 1.89 
.05 4.35 3.49 3.10 2.87 PATA 2.60 251 2.45 2.39 235 23l 2.28 
.01 8.10 5.85 4.94 4.43 4.10 3.87 3.70 SÓ 3.46 EV 3.29 323 
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(continuación) 
gl para 
gl para el numerador N; el deno- 
minador 
15 20 24 30 40 50 60 100 120 200 500 00 Pr N2 
1S? 1.52 15% 1.51 1.51 1.50 1.50 1.49 1.49 1.49 1.48 1.48 25 
2.24 2.20 208 216 28 2142 A 2.09 2.08 2.07 2.06 2.06  .10 10 
2.85 BMY 2.74 2.70 2.66 2.64 2.62 2.59 2.58 2.56 2.55 2.54 AS 
4.56 4.41 4.33 4.25 4.17 412 408 401 4.00 3.96 393 JS .01 
1.50 1.49 1.49 1.48 1.47 1.47 1.47 1.46 1.46 1.46 145 1.45  .25 
2A 212 2.10 2.08 2.05 2.04 2.03 2.00 2.00 150 ISS 16y AO 11 
22 2.65 2.61 25 253 AS 2.49 2.46 2.45 2.43 2.42 240  .05 
4.25 4.10 4.02 3.94 3.86 3.81 SUS Al 3.69 3.66 3.62 3.60  .01 
1.48 1.47 1.46 1.45 1.45 1.44 1.44 1.43 1.43 1.43 1.42 1.42 25 
2.10 2.06 2.04 2.01 I9 11E 1.96 1.94 198 1.92 LOT 10 ¿10 12 
2.62 2.54 2.51 2.47 243 240 2.38 235 2.34 22 2al 230 M5 
4.01 3.86 3.78 3.70 SOLIS O 3.54 3.47 3.45 3.41 3S 3385 A 
1.46 1.45 1.44 1.43 1.42 1.42 1.42 14 1.41 1.40 1.40 1.40  .25 
2.05 2.01 1.98 1.96 193 132 1.90 1.88 1.88 1.86 IES 16S -10 13 
2593 2.46 2.42 2.38 2.34 2.31 ZE OZ 2 6 205 223 272202] .05 
3.82 3.66 359 895) 3.43 3.38 3.34 3.27 325 3122 210 37 ¿0 
1.44 1.43 1.42 1.41 1.41 1.40 1.40 1.39 1.30 1,30 ISS Ie 25 
2.01 1.96 1.94 1.91 1.89 1.87 1.86 1.83 1.83 1.82 1.80 1.80  .10 
2.46 230 SS | RAU BIA RP AIÈ 2.18 2.16 DA Z SOS 0% 
3.66 Bi 3.43 335 22722 SUE S 3.09 3.06 2303 400 o 
1.43 1.41 1.41 1.40 iD w 1.38 1.38 557, 11.37 kO IO 25 
1.97 192 1.90 1.87 1.85 1.83 1782279. 19 11-277 18 178 «0 15 
2.40 233 D BAS 22 AR. 2G 212 2 2.10 2.08 2.07 AS 
352 3) 229 372 Dla IO 3.05 2.98 2.96 292. D A A 
1.41 1.40 I9 1.38 1.57 17 1.36 1.36 185 35 1.34 1.34  .25 
1.94 1.89 1.87 1.84 ¡ESTILO l e 175 1.74 17/83 172 A 16 
235 2.28 2.24 219 Zis 242 A 2107 2.06 2.04 20% 20 105 
3.41 3.26 3.18 3.10 3.02 2.97 2.93 2.86 2.84 2.81 AWS AUD O | 
1.40 159 1.38 1.37 1 35 1.35 1.34 1.34 1.34 128 153 25 
IES 1.86 1.84 1.81 I I6 1/3 178 1.72 IEZ IED 1D NO 17 
2.31 223 20O S 2.10 2.08 2.06 2.02 2.01 1.99 ¡LOTES COS 
sil 3.16 3.08 3.00 292 A APS 210 2/5) A 2168 M? 65 m0] 
9 1.38 1,7 1.36 1.35 1.34 T34 133 1,28 11.32 eA eA 25 
1.89 1.84 1.81 1.78 1.75 1.74 172 E70 1.69 1.68 1.67 1.66 -10 18 
2.27 2119 AS 24 2.06 2.04 2.02 1.98 97 1.95 ISS 152 ¿05 
323 3.08 3.00 2.92 2.84 2.78 2.75 2.68 2.66 2.62 2D 257 M 
1.38 1.37 1.36 1ES5 1.34 1.33 1,38 1% 152 1,31 ESTAS OS 
1.86 1.81 1579 1.76 1.8 UA 1.70 1.67 1.67 1.65 1.64 1.63 10 19 
222 2.16 2.11 2.07 2.03 2.00 1.98 1.94 1.93 1.91 1.89 1.88  .05 
ls 3.00 2.92 2.84 276 2 2.67 2.60 2.58 255 2.51 249 01 
1837 1.36 1.35 1.34 ilsa 133 2e 1.31 11.0 130 120 25 
1.84 1.79 1,77 1.74 IA IES 1.68 1.65 1.64 1.63 1.62 1.61 .10 
2.20 212 2.08 2.04 I9 107 15s 11 1.90 1.88 1.86 1.84 05 20 
3.09 2.94 2.86 2.78 2.69 2.64 2.61 2.54 2152 2.48 2.44 242 01 
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TABLA D.3 Puntos porcentuales superiores de la distribución F (continuación) 


gl para 
el deno- gl para el numerador N; 
minador 
N2 Pr 1 2 3 4 5 6 7 8 9 10 11 12 
25 1.40 1.48 1.47 1.45 1.44 1.42 1.41 1.40 1.39 1,20) I8 1,37 
22 10 2.95 2.56 235 222 218 2.06 2401) 1.97 1.93 1.90 1.88 1.86 
.05 4.30 3.44 3.05 2.82 2.66 2.55 2.46 2.40 2.34 2.30 2.26 223 
.01 7.95 S12 4.82 4.31 3.99 3.76 3.59 3.45 339 3.26 3.18 312 
25 1.39 1.47 1.46 1.44 1.43 1.41 1.40 1.39 1.38 18 1,37 1.36 
24 10 2.93 2.54 2585) 2.19 2.10 2.04 1.98 1.94 1.91 1.88 1.85 1.83 
LOS 4.26 3.40 3.01 2.78 2.62 2S 2.42 2.36 2.30 225 221 2.18 
.01 7.82 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 Balz 3.09 3.03 
25 158 1.46 1.45 1.44 1.42 1.41 1.39 1.38 1.57 1.877 1656 ISS 
26 10 2.91 252 2.31 2117 2.08 2.01 1.96 1.92 1.88 1.86 1.84 1.81 
105 4.23 3.37 2.98 2.74 2.59 2.47 2.39 292 227 222 2.18 215 
.01 Dollz 95) 4.64 4.14 3.82 3.59 3.42 3.29 3.18 3.09 3.02 2.96 
25 1.38 1.46 1.45 1.43 1.41 1.40 1.39 1.38 1.57 1.36 VES 1.34 
28 10 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 1.84 1.81 1.79 
.05 4.20 3.34 2.95 271 2.56 2.45 2.36 2.29 2.24 2.19 2015 212 
.01 7.64 5.45 4.57 4.07 SS BS 350) 223 S2 3.03 2.96 2.90 
25 1.38 1.45 1.44 1.42 1.41 1.39 1.38 1637 1.36 185 1555 1.34 
30 10 2.88 2.49 2.28 2.14 2105 1.98 193 1.88 SS 1.82 1.79 lez 
.05 4.17 332 2.92 2.69 253 2.42 20 227 22i 2.16 ZAS 2.09 
rol 7.56 5.39 4.51 4.02 3.70 3.47 3.30 3.17 3.07 2.98 2.91 2.84 
25 156 1.44 1.42 1.40 1.39 1.37 1.36 135 1.34 11,3 1,32 1,3 
40 10 2.84 2.44 223 2.09 2.00 1.93 1.87 1.83 1.79 1.76 i73 UA 
.05 4.08 323 2.84 2.61 2.45 2.34 225 2.18 22 2.08 2.04 2.00 
.01 73i 5.18 4.31 3.83 ZN 3.29 Sala 2.99 2.89 2.80 23 2.66 
25 135 1.42 1.41 1458 1,37 SS 11.38) 1.32 1687] 1.10) 1629 1.29 
60 10 2.79 2.39 2.18 2.04 1.95 1.87 1.82 177 1.74 17 1.68 1.66 
.05 4.00 SS 2.76 250) 237 225 2417 2.10 2.04 1.99 ¡95 192 
.01 7.08 4.98 4.13 3.65 3.34 012 295 2.82 22 2.63 2.56 2.50 
25 1.34 1.40 1.39 1.37 TAS 1388 ¡ASÍ 50 1.29 1.28 ¡527 1.26 
120 10 BMA 25 ZAS) 1.99 1.90 1.82 E77 172 1.68 ROS 1.62 1.60 
105 3.92 3.07 2.68 2.45 2.29 2 17 2.09 202 1.96 1.91 1.87 1.83 
.01 6.85 4.79 3.95 3.48 3117 2.96 2.79 2.66 2.56 2.47 2.40 2.34 
25 1,38 1.39 1.38 1.36 1.34 11,3% Si 1.29 1.28 127 1.26 1,25 
200 10 22 233 ZA 1.97 1.88 1.80 1.75 1.70 1.66 1.63 1.60 ¡ES 
.05 3.89 3.04 2.65 2.42 2.26 2.14 2.06 1.98 1.93 1.88 1.84 1.80 
.01 6.76 4.71 3.88 3.41 ST 2.89 27 2.60 2.50 2.41 2.34 227 
25 I2 1.39 1.37 1555 1,35 Sil 1.29 1.28 127 1625 1.24 1.24 
ELO) 27 2.30 2.08 1.94 1.85 Z7 172 17 1.63 1.60 ¡ES ISS 
ES .05 3.84 3.00 2.60 237 221 200 2.01 1.94 1.88 188 1.79 i75 
.01 6.63 4.61 3.78 532 3.02 2.80 2.64 251] 2.41 PIS 225 2e 
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(continuación) 
gl para 
gl para el numerador N; el deno- 
minador 
15 20 24 30 40 50 60 100 120 200 500 00 Pr N2 
1.36 1.34 1.33 32 1.31 1.31 1.30 1.30 1.30 1.29 129 UB 25 
1.81 1.76 1.8 1.70 1.67 1.65 1.64 1.61 1.60 159 ISS O 22 
205 2.07 2.03 1.98 1.94 1.91 1.89 1.85 1.84 1.82 1.80 1.78 0S 
2.98 2.83 27 2.67 ZES IZ 2.50 2.42 2.40 2.36 DOD Al .01 
1.35 1.33 1.32 1.31 1.30 129 1629 1.28 1.28 127, 1.27 128 25 
1.78 1.73 1.70 1.67 1.64 1.62 1.61 1.58 1,57 1.56 1.54 1.553  .10 24 
2 2.03 1.98 1.94 1.89 1.86 1.84 1.80 179 11.77 1.735 1.73 05 
2.89 2.74 2.66 2.58 249 2.44 240 2.33 23] 22 2.24 2.21 .01 
1.34 1.32 1,31 1.30 120 A 1.28 1.26 1.26 1.26 12S 125 25 
1.76 1.71 1.68 1.65 1.61 1.59 1.58 155 1.54 11.58 TESI ¡ESOO 26 
2.07 1.99 1.95 1.90 1.85 1.82 1.80 1.76 175 178 1.71 1.69 05 
2.81 2.66 DES 50 B AO ZES S A25 278) 2.19 zile Als ¿O 
1.33 1.31 1.30 11629 1.28 127 1427 1.26 1225 1425 1.24 1.24 25 
1.74 1.69 1.66 1.63 ISO 157 1.56 1.53 ES2 1.50 1.49 1.48  .10 28 
2.04 1.96 1.91 1.87 1E2 I 15777 178 UA 1.69 Io IGOS W5 
PS 2.60 252 2.44 2599 230 223 219 NY 2.13 2.09 2.06  .01 
1.32 1.30 1.29 1.28 1.27 128 1.26 1.25 1.24 1.24 1,23 123 25 
1.72 1.67 1.64 1.61 TSA 155 1.54 1.51 1.50 1.48 1.47 1.46  .10 30 
2.01 1.93 1.89 1.84 1.7452 170 1.74 1.70 1.68 1.66 1.64 1.62  .05 
2.70 2155 2.47 2.39 ZE O ZEZS ZE 216 2i 2.07 2.03 2.01 .01 
1.30 1.28 1.26 1625 1.24 1.23 1822 1.21 1.21 1.20 119 MID 25 
1.66 1.61 1.57 1.54 1.51 1.48 1.47 1.43 1.42 1.41 I b 10 40 
1.92 1.84 1.79 1.74 1.69 1.66 1.64 159 1.58 1.55 153 hsi .05 
2.52 257) DIEZ ZO 2. 208 202 1.94 192 1.87 1.83 1.80 A 
1.27 1.25 1.24 11222 1.21 1.20 1,10 1.117 1:17 1.16 iis 118 25 
1.60 1.54 1.51 1.48 1.44 14 1.40 1.36 11.5 11,35) 1,1 125 O 60 
1.84 1.75 1.70 1.65 ISS 1S6 11,53 1.48 1.47 1.44 1.41 IO 5 
2.35 2.20 2812 2103 1.94 1.88 1.84 175 1873 1.68 1635 160 ¿QQ 
1.24 1.22 1.21 1.19 1.0 17 1.16 1.14 1.08 1,12 1.07 1.10 25 
1.55 1.48 1.45 1.41 1.37 1.34 1.32 1.27 1.26 1.24 1.21 1.19 ¿10 120 
1.75 1.66 1.61 ISS 1.50 1.46 1.43 1.37 11,85) 11.32 128 1235 0S 
2119 2.03 1.95 1.86 I6 10 1.66 1.56 1.53 1.48 ALIS SON 
1.23 1.21 1.20 1.18 1.16 1.14 112 1-11 1.10 1.09 1.08 1.06 25 
1.52 1.46 1.42 1.38 1.34 1.31 1.28 1.24 11,22 1.20 NA AO 200 
1.72 1.62 1,7 1.52 1.46 14 1.38) 12 129. 1.26 1,22 11D W5 
20B 1.97 1.89 11979 1.69 1.63 1.58 1.48 1.44 1159 1.33 123 ¿0 
1.22 1.19 1E 1.16 1.14 1.13 1.12 1.09 1.08 1.07 1.04 1.00 .25 
1.49 1.42 1.38 1.34 1.30 1.26 1.24 1.18 1:17 1,13 1.08 1.00  .10 
1.67 1.57 152 1.46 10 135 11.32 1.24 122 1.17 1 1.00 .05 z 
2.04 1.88 179 1.70 ISO ES 1.47 1.36 1452 1425 ts 100 0l 
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TABLA D.4 Ejemplo shd iea 
Puntos porcentuales Pr(x? > 10.85) = 0.95 95% del área ea 
superiores de la distribu- 


Pr(x? > 23.83) = 0.25 para gl = 20 


ción x? 
Pr(x? > 31.41) = 0.05 


5% del área 


Xx 
O 10.85 23.83 31.41 
Grados Pr 
de libertad .995 .990 975 .950 .900 
1 392704 x 101% 157088 x 1072 982069 x 107? 393214 x 1078 .0157908 
2 .0100251 .0201007 .0506356 .102587 .210720 
3 .0717212 .114832 215795 .351846 .584375 
4 .206990 .297110 .484419 E NO7Z 1.063623 
5 411740 .554300 SS Zi 1.145476 1.61031 
6 .675727 .872085 1.237347 1.63539 2.20413 
7 .989265 1.239043 1.68987 2.16735 2.83311 
8 1.344419 1.646482 27973 2.73264 3.48954 
G) 1.734926 2.087912 2.70039 3325 4.16816 
10 215585 2.55821 3.24697 3.94030 4.86518 
1 2.60321 3.05347 3.81575 4.57481 IAE) 
12 3.07382 3.57056 4.40379 5.22603 6.30380 
13 3.56503 4.10691 5.00874 5.89186 7.04150 
14 4.07468 4.66043 5.62872 6.57063 7.78953 
15 4.60094 522985 6.26214 7.26094 8.54675 
16 5.14224 5.81221 6.90766 7.96164 951225 
17 5.69724 6.40776 7.56418 8.67176 10.0852 
18 6.26481 7.01491 8.23075 9.39046 10.8649 
16) 6.84398 7.63273 8.90655 10.1170 11.6509 
20 7.43386 8.26040 9.59083 10.8508 12.4426 
21 8.03366 8.89720 10.28293 MESSI 13.2396 
22 8.64272 9.54249 10.9823 12.3380 14.0415 
23 9.26042 10.19567 11.6885 13.0905 14.8479 
24 9.88623 10.8564 12.4011 13.8484 15.6587 
25 10S197 11.5240 WENO 14.6114 16.4734 
26 11.1603 12.1981 13.8439 155791 12919) 
27 11.8076 12.8786 14.5733 16.1513 18.1138 
28 12.4613 13.5648 15.3079 16:9279. 18.9392 
29 135121 14.2565 16.0471 17.7083 19.7677 
30 13.7867 14.9535 16.7908 18.4926 20.5992 
40 20.7065 22.1643 24.4331 26.5093 29.0505 
50 27.9907 29.7067 32.3574 34.7642 37.6886 
60 35.5346 37.4848 40.4817 43.1879 46.4589 
70 43.2752 45.4418 48.7576 S173953 55.3290 
80 51720 53.5400 DER 60.3915 64.2778 
90 59.1963 61.7541 65.6466 69.1260 732912 
100* 67.3276 70.0648 74.2219 77-9295 82.3581 
(continúa) 


* Para gl mayores que 100, la expresión Y212— v(Qk— 1) = Z sigue la distribución normal estandarizada, donde k representa 
los grados de libertad. 
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.750 .500 .250 .100 .050 .025 .010 .005 
.1015308 .454937 1.32330 2.70554 3.84146 5.02389 6.63490 7.87944 
.575364 1.38629 2.77259 4.60517 5.99147 7.37776 9.21034 10.5966 

1.212534 2.36597 4.10835 6.25139 7.81473 9.34840 11.3449 12.8381 
1692255 3.35670 5.38527 7.77944 9.48773 11.1433 13.2767 14.8602 
2.67460 4.35146 6.62568 9.23635 11.0705 12.8325 15.0863 16.7496 
3.45460 5.34812 7.84080 10.6446 12.5916 14.4494 16.8119 18.5476 
4.25485 6.34581 9.03715 12.0170 14.0671 16.0128 18.4753 20.2777 
5.07064 7.34412 10.2188 13.3616 (55078 17.5346 20.0902 21.9550 
5.89883 8.34283 11.3887 14.6837 16.9190 19.0228 21.6660 23.5893 
6.73720 9.34182 12.5489 15.9871 18.3070 20.4831 23.2093 25.1882 
7.58412 10.3410 13.7007 17.2750 19.6751 21.9200 24.7250 26.7569 
8.43842 11.3403 14.8454 18.5494 21.0261 23.3367 26.2170 28.2995 
9.29906 12.3398 15.9839 19.8119 22.3621 24.7356 27.6883 29.8194 
10.1653 153395 17.1170 21.0642 23.6848 26.1190 29.1413 31.3193 
11.0365 14.3389 18.2451 22.3072 24.9958 27.4884 30.5779 32.8013 
MESTZ2 15.3385 19.3688 23.5418 26.2962 28.8454 31.9999 34.2672 
12791119 16.3381 20.4887 24.7690 27.5871 30.1910 33.4087 35.7185 
18526758 17/3579 21.6049 25.9894 28.8693 31.5264 34.8053 37.1564 
14.5620 18.3376 22.7178 27.2036 30.1435 32.8523 36.1908 38.5822 
15.4518 19.3374 23.8277 28.4120 31.4104 34.1696 37.5662 39.9968 
16.3444 20.3372 24.9348 29.6151 32.6705 35.4789 38.9321 41.4010 
17.2396 21.3370 26.0393 30.8133 33.9244 36.7807 40.2894 42.7956 
18.1373 22.3369 27.1413 32.0069 291725 38.0757 41.6384 44.1813 
19:0372 23.3367 28.2412 33.1963 36.4151 39.3641 42.9798 45.5585 
11919598 24.3366 29.3389 34.3816 37.6525 40.6465 44.3141 46.9278 
20.8434 25.3364 30.4345 35.5631 38.8852 41.9232 45.6417 48.2899 
21.7494 26.3363 31.5284 36.7412 40.1133 43.1944 46.9630 49.6449 
22.6572 27.3363 32.6205 37.9159 41.3372 44.4607 48.2782 50.9933 
23.5666 28.3362 33.7109 39.0875 42.5569 45.7222 49.5879 52.3356 
24.4776 29.3360 34.7998 40.2560 43.7729 46.9792 50.8922 53.6720 
33.6603 39.3354 45.6160 51.8050 55.7585 59.3417 63.6907 66.7659 
42.9421 49.3349 56.3336 63.1671 67.5048 71.4202 76.1539 79.4900 
52.2938 59.3347 66.9814 74.3970 79.0819 83.2976 88.3794 91.9517 
61.6983 69.3344 77.5766 85.5271 90.5312 95:0231 100.425 104.215 
71.1445 79.3343 88.1303 96.5782 101.879 106.629 12329, 116.321 
80.6247 89.3342 98.6499 107.565 113.145 118.136 124.116 128.299 
90.1332 99.3341 109.141 118.498 124.342 129.561 135.807 140.169 


Fuente: Compendio de E.S. Pearson y H.O. Hartley (eds.), Biometrika Tables for Statisticians, vol. 1, 3a. ed., tabla 8, Cambridge University Press, Nueva York, 
1966. Se reproduce con autorización de los editores y los fideicomisarios de Biometrika. 
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TABLA D.5A Estadístico d de Durbin-Watson: puntos de significancia de dz y dy en el nivel de significancia de 0.05 
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 

E A AAA AA A A A DA A 
6 0.610 1.400 

7 0.700 1.356 0.467 1.896 

8 0.763 1.332 0.559 1.777 0.368 2.287 

9 0.824 1.320 0.629 1.699 0.455 2.128 0.296 2.588 

10 0.879 1.320 0.697 1.641 0.525 2.016 0.376 2.414 0.243 2.822 

11 0.927 1.324 0.658 1.604 0.595 1.928 0.444 2.283 0.316 2.645 0.203 3.005 

12 0.971 1.331 0.812 1.579 0.658 1.864 0.512 2.177 0.379 2.506 0.268 2.832 0.171 3.149 

13 1.010 1.340 0.861 1.562 0.715 1.816 0.574 2.094 0.445 2.390 0.328 2.692 0.230 2.985 0.147 3.266 == 
14 1.045 1.350 0.905 1.551 0.767 1.779 0.632 2.030 0.505 2.296 0.389 2.572 0.286 2.848 0.200 3.111 0.127 3.360 — — 
15 1.077 1.361 0.946 1.543 0.814 1.750 0.685 1.977 0.562 2.220 0.447 2.472 0.343 2.727 0.251 2.979 0.175 3.216 0.111 3.438 
16 1.106 1.371 0.982 1.539 0.857 1.728 0.734 1.935 0.615 2.157 0.502 2.388 0.398 2.624 0.304 2.860 0.222 3.090 0.155 3.304 
17 1.133 1.381 1.015 1.536 0.897 1.710 0.779 1.900 0.664 2.104 0.554 2.318 0.451 2.537 0.356 2.757 0.272 2.975 0.198 3.184 
18 1.158 1.391 1.046 1.535 0.933 1.696 0.820 1.872 0.710 2.060 0.603 2.257 0.502 2.461 0.407 2.667 0.321 2.873 0.244 3.073 
19 1.180 1.401 1.074 1.536 0.967 1.685 0.859 1.848 0.752 2.023 0.649 2.206 0.549 2.396 0.456 2.589 0.369 2.783 0.290 2.974 
20 1.201 1.411 1.100 1.537 0.998 1.676 0.894 1.828 0.792 1.991 0.692 2.162 0.595 2.339 0.502 2.521 0.416 2.704 0.336 2.885 
21 1.221 1.420 1.125 1.538 1.026 1.669 0.927 1.812 0.829 1.964 0.732 2.124 0.637 2.290 0.547 2.460 0.461 2.633 0.380 2.806 
22 1.239 1.429 1.147 1.541 1.053 1.664 0.958 1.797 0.863 1.940 0.769 2.090 0.677 2.246 0.588 2.407 0.504 2.571 0.424 2.734 
23 1.257 1.437 1.168 1.543 1.078 1.660 0.986 1.785 0.895 1.920 0.804 2.061 0.715 2.208 0.628 2.360 0.545 2.514 0.465 2.670 
24 1.273 1.446 1.188 1.546 1.101 1.656 1.013 1.775 0.925 1.902 0.837 2.035 0.751 2.174 0.666 2.318 0.584 2.464 0.506 2.613 
25 1.288 1.454 1.206 1.550 1.123 1.654 1.038 1.767 0.953 1.886 0.868 2.012 0.784 2.144 0.702 2.280 0.621 2.419 0.544 2.560 
26 1.302 1.461 1.224 1.553 1.143 1.652 1.062 1.759 0.979 1.873 0.897 1.992 0.816 2.117 0.735 2.246 0.657 2.379 0.581 2.513 
27 1.316 1.469 1.240 1.556 1.162 1.651 1.084 1.753 1.004 1.861 0.925 1.974 0.845 2.093 0.767 2.216 0.691 2.342 0.616 2.470 
28 1.328 1.476 1.255 1.560 1.181 1.650 1.104 1.747 1.028 1.850 0.951 1.958 0.874 2.071 0.798 2.188 0.723 2.309 0.650 2.431 
29 1.341 1.483 1.270 1.563 1.198 1.650 1.124 1.743 1.050 1.841 0.975 1.944 0.900 2.052 0.826 2.164 0.753 2.278 0.682 2.396 
30 1.352 1.489 1.284 1.567 1.214 1.650 1.143 1.739 1.071 1.833 0.998 1.931 0.926 2.034 0.854 2.141 0.782 2.251 0.712 2.363 
31 1.363 1.496 1.297 1.570 1.229 1.650 1.160 1.735 1.090 1.825 1.020 1.920 0.950 2.018 0.879 2.120 0.810 2.226 0.741 2.333 
32 1.373 1.502 1.309 1.574 1.244 1.650 1.177 1.732 1.109 1.819 1.041 1.909 0.972 2.004 0.904 2.102 0.836 2.203 0.769 2.306 
33 1.383 1.508 1.321 1.577 1.258 1.651 1.193 1.730 1.127 1.813 1.061 1.900 0.994 1.991 0.927 2.085 0.861 2.181 0.795 2.281 
34 1.393 1.514 1.333 1.580 1.271 1.652 1.208 1.728 1.144 1.808 1.080 1.891 1.015 1.979 0.950 2.069 0.885 2.162 0.821 2.257 
35 1.402 1.519 1.343 1.584 1.283 1.653 1.222 1.726 1.160 1.803 1.097 1.884 1.034 1.967 0.971 2.054 0.908 2.144 0.845 2.236 
36 1.411 1.525 1.354 1.587 1.295 1.654 1.236 1.724 1.175 1.799 1.114 1.877 1.053 1.957 0.991 2.041 0.930 2.127 0.868 2.216 
37 1.419 1.530 1.364 1.590 1.307 1.655 1.249 1.723 1.190 1.795 1.131 1.870 1.071 1.948 1.011 2.029 0.951 2.112 0.891 2.198 
38 1.427 1.535 1.373 1.594 1.318 1.656 1.261 1.722 1.204 1.792 1.146 1.864 1.088 1.939 1.029 2.017 0.970 2.098 0.912 2.180 
39 1.435 1.540 1.382 1.597 1.328 1.658 1.273 1.722 1.218 1.789 1.161 1.859 1.104 1.932 1.047 2.007 0.990 2.085 0.932 2.164 
40 1.442 1.544 1.391 1.600 1.338 1.659 1.285 1.721 1.230 1.786 1.175 1.854 1.120 1.924 1.064 1.997 1.008 2.072 0.952 2.149 
45 1.475 1.566 1.430 1.615 1.383 1.666 1.336 1.720 1.287 1.776 1.238 1.835 1.189 1.895 1.139 1.958 1.089 2.022 1.038 2.088 
50 1.503 1.585 1.462 1.628 1.421 1.674 1.378 1.721 1.335 1.771 1.291 1.822 1.246 1.875 1.201 1.930 1.156 1.986 1.110 2.044 
55 1.528 1.601 1.490 1.641 1.452 1.681 1.414 1.724 1.374 1.768 1.334 1.814 1.294 1.861 1.253 1.909 1.212 1.959 1.170 2.010 
60 1.549 1.616 1.514 1.652 1.480 1.689 1.444 1.727 1.408 1.767 1.372 1.808 1.335 1.850 1.298 1.894 1.260 1.939 1.222 1.984 
65 1.567 1.629 1.536 1.662 1.503 1.696 1.471 1.731 1.438 1.767 1.404 1.805 1.370 1.843 1.336 1.882 1.301 1.923 1.266 1.964 
70 1.583 1.641 1.554 1.672 1.525 1.703 1.494 1.735 1.464 1.768 1.433 1.802 1.401 1.837 1.369 1.873 1.337 1.910 1.305 1.948 
75 1.598 1.652 1.571 1.680 1.543 1.709 1.515 1.739 1.487 1.770 1.458 1.801 1.428 1.834 1.399 1.867 1.369 1.901 1.339 1.935 
80 1.611 1.662 1.586 1.688 1.560 1.715 1.534 1.743 1.507 1.772 1.480 1.801 1.453 1.831 1.425 1.861 1.397 1.893 1.369 1.925 
85 1.624 1.671 1.600 1.696 1.575 1.721 1.550 1.747 1.525 1.774 1.500 1.801 1.474 1.829 1.448 1.857 1.422 1.886 1.396 1.916 
90 1.635 1.679 1.612 1.703 1.589 1.726 1.566 1.751 1.542 1.776 1.518 1.801 1.494 1.827 1.469 1.854 1.445 1.881 1.420 1.909 
95 1.645 1.687 1.623 1.709 1.602 1.732 1.579 1.755 1.557 1.778 1.535 1.802 1.512 1.827 1.489 1.852 1.465 1.877 1.442 1.903 
100 1.654 1.694 1.634 1.715 1.613 1.736 1.592 1.758 1.571 1.780 1.550 1.803 1.528 1.826 1.506 1.850 1.484 1.874 1.462 1.898 
150 1.720 1.746 1.706 1.760 1.693 1.774 1.679 1.788 1.665 1.802 1.651 1.817 1.637 1.832 1.622 1.847 1.608 1.862 1.594 1.877 
200 1.758 1.778 1.748 1.789 1.738 1.799 1.728 1.810 1.718 1.820 1.707 1.831 1.697 1.841 1.686 1.852 1.675 1.863 1.665 1.874 
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100 
150 
200 


1895) 
1.418 
1.439 
1.579 
1.654 


0.087 
0.123 
0.160 


3.441 0.078 3.603 
3.335 0.111 3.496 
3.234 0.145 3.395 
3.141 0.182 3.300 
3.057 0.220 3.211 
2979 0259 JA28 
2.908 0.297 3.053 
2.844 0.335 2.983 
2.784 0.373 2.919 
2.730 0.409 2.859 
2.680 0.445 2.805 
2.634 0.479 2.755 
2.592 0.512 2.708 
2.553 0.545 2.665 
2517 0.576 12625 
2.484 0.606 2.588 
2.454 0.634 2.554 
2.425 0.662 2.521 
2.398 0.689 2.492 
2.374 0.714 2.464 
2.351 0.739 2.438 
2:329. 0763 2A13 
2.309 0785 2391 
2.225 0.887 2.296 
2.163 0:973 2.225 
2.116 1.045 2.170 
2072 AOS Z127 
2.049 1.160 2.093 
2.026 1.206 2.066 
2.043 
1.991 1.283 2.024 
197731521009 
1.966 1.344 1.995 
1.984 
1.974 
1.908 1.550 1.924 
1.896 1.632 1.908 


N 
o 
o 
o 
N 
A 
N 


o `o 
A un 
œ o 
w w 
oO | 
wo 


0.070 
0.100 
0.132 
0.166 
0.202 
0.239 
0.275 
0.312 
0.348 
0.383 
0.418 
0.451 
0.484 
0.515 
0.546 
0.575 
0.604 
0.631 
0.657 
0.683 
0.707 
0.731 
0.838 
0.927 
1.003 
.068 
.124 
la 
RAS 
1253 
.287 
.318 
1.345 
14371 
DES 
.621 


3.642 
3.542 
3.448 
3.358 
3.272 
3.193 
3.119 
3.051 
2.987 
2.928 
2.874 
2.823 
2.776 
2733 
2.692 
2.654 
2.619 
2.586 
2559 
2.526 
2.499 
2.473 
2.367 
2.287 
2.225 
2AT 
2.138 
2.106 
2.080 
2.059 
2.040 
2.025 
2.012 
2.000 
1.940 
1919. 


0.063 
0.091 
0.120 
0.153 
0.186 
0.221 
0.256 
0.291 
0.325 
0.359 
0.392 
0.425 
0.457 
0.488 
0.518 
0.547 
0.575 
0.602 
0.628 
0.653 
0.678 
0.788 
0.882 
0.961 
.029 
.088 
139 
.184 
.224 
.260 
.292 
Sil 
.347 
9 
.610 


AS e OA a N A a 


3.676 
3.583 
3.495 
3.409 
332) 
3.251 
3.179 
salia 
3.050 
2.992 
2937 
2.887 
2.840 
2.796 
2.754 
2.716 
2.680 
2.646 
2.614 
2.585 
LaS 
2.439 
2.350 
2.281 
222I 
2.183 
2.148 
2.118 
2.093 
2.073 
2.055 
2.040 
2.026 
1.956 
1.931 


0.058 
0.083 
0.110 
0.141 
0.172 
0.205 
0.238 
0.271 
0.305 
0.337 
0.370 
0.401 
0.432 
0.462 
0.492 
0.520 
0.548 
0.575 
0.600 
0.626 
0.740 
0.836 
0.919 
0.990 
1.052 
105 
153 
AEE 
:232 
.266 
.296 
.324 
.504 
.599 


a l i 


3.705 
3.619 
BS) 
3.454 
3.376 
3.303 
1233 
3.168 
3.107 
3.050 
2.996 
2.946 
2.899 
2.854 
2.813 
2.774 
2.738 
2.703 
2.671 
2.641 
2.512 
2.414 
2.338 
2.278 
2.229 
2.189 
2.156 
2129 
2.105 
2.085 
2.068 
2.053 
1.972 
1.943 


0.052 
0.076 
0.101 
0.130 
0.160 
0.191 
0.222 
0.254 
0.286 
0.317 
0.349 
0.379 
0.409 
0.439 
0.467 
0.495 
0.522 
0.549 
0.575 
0.692 
0.792 
0.877 
0.951 
1.016 
.072 
N21 
165 
.205 
.240 
EA 
1.301 
1.489 
1.588 


1 
1 
1 
1 
1 
1 


373 
3.650 
ETEA 
3.494 
3.420 
3.349 
3.283 
3.219 
3.160 
3.103 
3.050 
3.000 
2.954 
2.910 
2.868 
2.829 
2:792 
PS] 
2.724 
2.586 
2.479 
2.396 
2.330 
2.276 
2.232 
2.195 
2.165 
2139 
2.116 
2.097 
2.080 
1.989 
1955 


0.048 
0.070 
0.094 
0.120 
0.149 
0.178 
0.208 
0.238 
0.269 
0.299 
0.329 
0.359 
0.388 
0.417 
0.445 
0.472 
0.499 
0.525 
0.644 
0.747 
0.836 
0.913 
0.980 
1.038 
1.090 
1.136 
EZ 
16213 
1.247 
152777 
1.474 
1.576 


EPEE 
3.678 
3.604 
3931 
3.460 
31392 
3.327 
3.266 
3.208 
Silos) 
3.100 
3.051 
3.005 
2.961 
2.920 
2.880 
2.843 
2.808 
2.659 
2.544 
2.454 
2.382 
2.323 
ES 
IS 
2.201 
2172 
2.148 
2.126 
2.108 
2.006 
1.967 


0.044 
0.065 
0.087 
0.112 
0.138 
0.166 
0.195 
0.224 
0.253 
0.283 
0.312 
0.340 
0.369 
0.397 
0.424 
0.451 
0.477 
0.598 
0.703 
0.795 
0.874 
0.944 
.005 
.058 
.106 
.149 
.187 
4222 
1235) 
.458 
.565 


3.773 
3.702 
3.632 
3.563 
3.495 
3.431 
3.368 
3.309 
3.252 
3.198 
3.147 
3.099 
3.053 
3.009 
2.968 
2929 
2.892 
2.733 
2.610 
2.512 
2.434 
2.371 
2.318 
2275 
2.238 
2.206 
2.179 
2.156 
PASS) 
2.023 
1.979 


Nota: n = número de observaciones, k’ = número de variables explicativas, excluyendo el término constante. 


Fuente: Esta tabla es una extensión de la tabla original de Durbin-Watson y se reproduce de N.E. Savin y K.J. White, “The Durbin-Watson Test for Serial Corre- 
lation with Extreme Small Samples or Many Regressors”, Econometrica, vol. 45, noviembre de 1977, pp. 1989-1996, con las correcciones de R.W. Farebrother, 
Econometrica, vol. 48, septiembre de 1980, p. 1554. Se reproduce con autorización de la Sociedad Econométrica. 
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EJEMPLO 1 


Si n= 40 y k' = 4, dı = 1.285 y dy = 1.721. Si un valor d calculado es menor que 1.285, hay 
evidencia de correlación serial positiva de primer orden; si es mayor que 1.721, no hay evidencia 
de correlación serial positiva de primer orden; pero si d se encuentra entre el límite inferior y el 
superior, hay evidencia inconclusa relacionada con la presencia o ausencia de correlación serial 
positiva de primer orden. 
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TABLA D.5B Estadístico d de Durbin-Watson: puntos de significancia de dz y dy en el nivel de significancia de 0.01 
k=1 k=2 k=3 k=4 k=5 k=6 k=7 k=8 k=9 k=10 

n di du A dy de dy e y ey y y iy y y 
6 0.390 1.142 
7 0.435 1.036 0.294 1.676 
8 0.497 1.003 0.345 1.489 0.229 2.102 
9 0.554 0.998 0.408 1.389 0.279 1.875 0.183 2.433 
10 0.604 1.001 0.466 1.333 0.340 1.733 0.230 2.193 0.150 2.690 
11 0.653 1.010 0.519 1.297 0.396 1.640 0.286 2.030 0.193 2.453 0.124 2.892 
12 0.697 1.023 0.569 1.274 0.449 1.575 0.339 1.913 0.244 2.280 0.164 2.665 0.105 3.053 
13 0.738 1.038 0.616 1.261 0.499 1.526 0.391 1.826 0.294 2.150 0.211 2.490 0.140 2.838 0.090 3.182 == 
14 0.776 1.054 0.660 1.254 0.547 1.490 0.441 1.757 0.343 2.049 0.257 2.354 0.183 2.667 0.122 2.981 0.078 3.287 = 
15 0.811 1.070 0.700 1.252 0.591 1.464 0.488 1.704 0.391 1.967 0.303 2.244 0.226 2.530 0.161 2.817 0.107 3.101 0.068 3.374 
16 0.844 1.086 0.737 1.252 0.633 1.446 0.532 1.663 0.437 1.900 0.349 2.153 0.269 2416 0.200 2.681 0.142 2.944 0.094 3.201 
17 0.874 1.102 0.772 1.255 0.672 1.432 0.574 1.630 0.480 1.847 0.393 2.078 0.313 2.319 0.241 2566 0.179 2.811 0.127 3.053 
18 0.902 1.118 0.805 1.259 0.708 1.422 0.613 1.604 0.522 1.803 0.435 2.015 0.355 2.238 0.282 2.467 0.216 2.697 0.160 2.925 
19 0.928 1.132 0.835 1.265 0.742 1.415 0.650 1.584 0.561 1.767 0.476 1.963 0.396 2.169 0.322 2.381 0.255 2.597 0.196 2.813 
20 0.952 1.147 0.863 1.271 0.773 1.411 0.685 1.567 0.598 1.737 0.515 1.918 0.436 2.110 0.362 2.308 0.294 2.510 0.232 2.714 
21 0.975 1.161 0.890 1.277 0.803 1.408 0.718 1.554 0.633 1.712 0.552 1.881 0.474 2.059 0.400 2.244 0.331 2.434 0.268 2.625 
22 0.997 1.174 0.914 1.284 0.831 1.407 0.748 1.543 0.667 1.691 0.587 1.849 0.510 2.015 0.437 2.188 0.368 2.367 0.304 2.548 
23 1.018 1.187 0.938 1.291 0.858 1.407 0.777 1.534 0.698 1.673 0.620 1.821 0.545 1.977 0.473 2.140 0.404 2.308 0.340 2.479 
24 1.037 1.199 0.960 1.298 0.882 1.407 0.805 1.528 0.728 1.658 0.652 1.797 0.578 1.944 0.507 2.097 0.439 2.255 0.375 2.417 
25 1.055 1.211 0.981 1.305 0.906 1.409 0.831 1.523 0.756 1.645 0.682 1.776 0.610 1.915 0.540 2.059 0.473 2.209 0.409 2.362 
26 1.072 1.222 1.001 1.312 0.928 1.411 0.855 1.518 0.783 1.635 0.711 1.759 0.640 1.889 0.572 2.026 0.505 2.168 0.441 2.313 
27 1.089 1.233 1.019 1.319 0.949 1.413 0.878 1.515 0.808 1.626 0.738 1.743 0.669 1.867 0.602 1.997 0.536 2.131 0.473 2.269 
28 1.104 1.244 1.037 1.325 0.969 1.415 0.900 1.513 0.832 1.618 0.764 1.729 0.696 1.847 0.630 1.970 0.566 2.098 0.504 2.229 
29 1.119 1.254 1.054 1.332 0.988 1.418 0.921 1.512 0.855 1.611 0.788 1.718 0.723 1.830 0.658 1.947 0.595 2.068 0.533 2.193 
30 1.133 1.263 1.070 1.339 1.006 1.421 0.941 1.511 0.877 1.606 0.812 1.707 0.748 1.814 0.684 1.925 0.622 2.041 0.562 2.160 
31 1.147 1.273 1.085 1.345 1.023 1.425 0.960 1.510 0.897 1.601 0.834 1.698 0.772 1.800 0.710 1.906 0.649 2.017 0.589 2.131 
32 1.160 1.282 1.100 1.352 1.040 1.428 0.979 1.510 0.917 1.597 0.856 1.690 0.794 1.788 0.734 1.889 0.674 1.995 0.615 2.104 
33 1.172 1.291 1.114 1.358 1.055 1.432 0.996 1.510 0.936 1.594 0.876 1.683 0.816 1.776 0.757 1.874 0.698 1.975 0.641 2.080 
34 1.184 1.299 1.128 1.364 1.070 1.435 1.012 1.511 0.954 1.591 0.896 1.677 0.837 1.766 0.779 1.860 0.722 1.957 0.665 2.057 
35 1.195 1.307 1.140 1.370 1.085 1.439 1.028 1.512 0.971 1.589 0.914 1.671 0.857 1.757 0.800 1.847 0.744 1.940 0.689 2.037 
36 1.206 1.315 1.153 1.376 1.098 1.442 1.043 1.513 0.988 1.588 0.932 1.666 0.877 1.749 0.821 1.836 0.766 1.925 0.711 2.018 
37 1.217 1.323 1.165 1.382 1.112 1.446 1.058 1.514 1.004 1.586 0.950 1.662 0.895 1.742 0.841 1.825 0.787 1.911 0.733 2.001 
38 1.227 1.330 1.176 1.388 1.124 1.449 1.072 1.515 1.019 1.585 0.966 1.658 0.913 1.735 0.860 1.816 0.807 1.899 0.754 1.985 
39 1.237 1.337 1.187 1.393 1.137 1.453 1.085 1.517 1.034 1.584 0.982 1.655 0.930 1.729 0.878 1.807 0.826 1.887 0.774 1.970 
40 1.246 1.344 1.198 1.398 1.148 1.457 1.098 1.518 1.048 1.584 0.997 1.652 0.946 1.724 0.895 1.799 0.844 1.876 0.749 1.956 
45 1.288 1.376 1.245 1.423 1.201 1.474 1.156 1.528 1.111 1.584 1.065 1.643 1.019 1.704 0.974 1.768 0.927 1.834 0.881 1.902 
50 1.324 1.403 1.285 1.446 1.245 1.491 1.205 1.538 1.164 1.587 1.123 1.639 1.081 1.692 1.039 1.748 0.997 1.805 0.955 1.864 
55 1.356 1.427 1.320 1.466 1.284 1.506 1.247 1.548 1.209 1.592 1.172 1.638 1.134 1.685 1.095 1.734 1.057 1.785 1.018 1.837 
60 1.383 1.449 1.350 1.484 1.317 1.520 1.283 1.558 1.249 1.598 1.214 1.639 1.179 1.682 1.144 1.726 1.108 1.771 1.072 1.817 
65 1.407 1.468 1.377 1.500 1.346 1.534 1.315 1.568 1.283 1.604 1.251 1.642 1.218 1.680 1.186 1.720 1.153 1.761 1.120 1.802 
70 1.429 1.485 1.400 1.515 1.372 1.546 1.343 1.578 1.313 1.611 1.283 1.645 1.253 1.680 1.223 1.716 1.192 1.754 1.162 1.792 
75 1.448 1.501 1.422 1.529 1.395 1.557 1.368 1.587 1.340 1.617 1.313 1.649 1.284 1.682 1.256 1.714 1.227 1.748 1.199 1.783 
80 1.466 1.515 1.441 1.541 1.416 1.568 1.390 1.595 1.364 1.624 1.338 1.653 1.312 1.683 1.285 1.714 1.259 1.745 1.232 1.777 
85 1.482 1.528 1.458 1.553 1.435 1.578 1.411 1.603 1.386 1.630 1.362 1.657 1.337 1.685 1.312 1.714 1.287 1.743 1.262 1.773 
90 1.496 1.540 1.474 1.563 1.452 1.587 1.429 1.611 1.406 1.636 1.383 1.661 1.360 1.687 1.336 1.714 1.312 1.741 1.288 1.769 
95 1.510 1.552 1.489 1.573 1.468 1.596 1.446 1.618 1.425 1.642 1.403 1.666 1.381 1.690 1.358 1.715 1.336 1.741 1.313 1.767 
100 1.522 1.562 1.503 1.583 1.482 1.604 1.462 1.625 1.441 1.647 1.421 1.670 1.400 1.693 1.378 1.717 1.357 1.741 1.335 1.765 
150 1.611 1.637 1.598 1.651 1.584 1.665 1.571 1.679 1.557 1.693 1.543 1.708 1.530 1.722 1.515 1.737 1.501 1.752 1.486 1.767 
200 1.664 1.684 1.653 1.693 1.643 1.704 1.633 1.715 1.623 1.725 1.613 1.735 1.603 1.746 1.592 1.757 1.582 1.768 1.571 1.779 
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k=14 


k=15 


k' =20 


0.053 3.506 


0.075 3.358 0.047 


0.102 3.227 0.067 0.043 3.601 


0.131 
0.162 
0.194 
0.227 
0.260 
0.292 
0.324 
0.356 
0.387 
0.417 
0.447 
0.475 
0.503 
0.530 
0.556 
0.58 
0.605 
0.628 
0.65 
0.673 
0.694 
0.790 
0.87 
0.940 
.00 
.053 
.099 
.14 
Arri 
.210 
.240 
.267 
.292 
.458 
.550 


3.109 
3.004 
2.909 
2.822 
2.744 
2.674 
2.610 
2.552 
2.499 
2.451 
2.407 
2.367 
2.330 
2.296 
2.266 
PENA 
2.210 
2.186 
2.164 
2.143 
223 
2.044 
.987 
.945 
1.914 
1.889 
.870 
.856 
1.844 
1.834 
.827 
.821 
1.816 
1799 
.801 


0.092 
0.119 
0.148 
0.178 
0.209 
0.240 
0.272 
0.303 
0.333 
0.363 
0.393 
0.422 
0.450 
0.477 
0.503 
0.529 
0.554 
0.578 
0.601 
0.623 
0.645 
0.744 
0.829 
0.902 
0.965 1; 
.020 
.068 
aA 
-150 
.184 
.215 
.244 
.270 
.444 
999) 


0.061 
0.084 
0.109 
0.136 
0.165 
0.194 
0.224 
0.253 
0.283 
0.313 
0.342 
0.371 
0.399 
0.426 
0.452 
0.478 
0.504 
0.528 
0.552 
0.575 
0.597 
0.700 
0.787 
0.863 
0.929 
0.986 
1.037 
1.082 
T22 
1TIS8 
1.191 
1.221 
1.248 
1.429 
1.528 


3.474 
3.358 
3:252 
2155 
3.065 
2.982 
2.906 
2.836 
2.772 
2713 
2.659 
2.609 
2.563 
2.520 
2.481 
2.444 
2.410 
2379 
2.350 
2.323 
2.297 
2193 
2.116 
2.059 
2.015 
.980 
1953 
-931 
918 
-898 
-886 
.876 
-868 
-830 
.824 


0.038 
0.055 
0.077 
0.100 
0.125 
0.152 
0.180 
0.208 
0.237 
0.266 
0.294 
0.322 
0.350 
0.377 
0.404 
0.430 
0.455 
0.480 
0.504 
0.528 
0.551 
0.655 
0.746 
0.825 
0.893 
0.953 


1.052 
1.094 
16152 
1.166 
1.197 
14225) 
1.414 
1.518 


100 1.314 
150 1.473 
200 1.561 


A i a i a a 


1005 1 


0.035 
0.050 
0.070 
0.092 
0.116 
0.141 
0.167 
0.194 
0.222 
0.249 
0.277 
0.304 
0.331 
0.357 
0.383 
0.409 
0.434 
0.458 
0.482 
0.505 
0.612 
0.705 
0.786 
0.857 
0.919 
0.974 
1.023 
1.066 
1.106 
1.141 
1.174 
1.203 
1.400 
1.507 


3.671 
3.562 
3.459 
3.363 
3.274 
3.191 
3.113 
3.040 
2972 
2.909 
2.851 
ZIT 
2.746 
2.699 
2.655 
2.614 
2.576 
2.540 
2.507 
2.476 
2.346 
2.250 
2.176 
2.120 
2.075 
2.038 
2.009 
1.984 
1.965 
1.948 
1.934 
1922 
1.863 
1.847 


3.700 
3.597 
3.501 
3.410 
3.325 
3.245 
3.169 
3.098 
3.032 
2.970 
2.912 
2.858 
2.808 
2.761 
PRAA 
2.675 
2.637 
2.600 
2.566 
2.424 
2.318 
2.237 
2173 
2.123 
2.082 
2.049 
2.022 
11999 
1.979 
1.963 
1.949 
1.880 
1.860 


3.725 
3.629 
3.538 
3.452 
3.371 
3.294 
3.220 
3152 
3.087 
3.026 
2.969 
2.915 
2.865 
2.818 
2.774 
2.733 
2.694 
2.657 
2.503 
2.387 
2.298 
2221 
2172 
2127 
2.090 
2.059 
2.033 
2.012 
16993) 
1697: 
1.897 
1.871 


Nota: n = número de observaciones. 
k' = número de variables explicativas, excluyendo el término constante. 


Fuente: Savin y White, op. cit., con autorización de la Sociedad Econométrica. 
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TABLA D.6A Valores críticos de rachas en la prueba de rachas 


N2 
Nı 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
2 2 2 2 2 2 2 2 2 2 
3 2 2 2 2 2 2 2 2 3 3 3 3 3 3 
4 2 A 2 3 3 3 3 8 3 5 3 4 4 4 4 4 
5 2 2 3 3 3 3 3 4 4 4 4 4 4 4 5 5 5) 
6 2 2 3 3 3 3 4 4 4 4 5 5 5 5 5 5 6 6 
7 2 2 3 3) 3 4 4 5 5 5 5 5 6 6 6 6 6 6 
8 DS ES TS S 5 5 6 6 6 6 6 Y 7 7 7 
9 2 3 3 4 4 5 5 5 6 6 6 y Ys 7 7 8 8 8 
10 E A SE 6 6 7 7 7 Y 8 8 8 8 9 
11 2 3.4 4 5 5 6 6 7 7 Y 8 8 8 9 9 9 9 
12 2 2 3 4 4 5 6 6 7 y 7 8 8 8 9 9 9 10 10 
18 IZ, 3 4 5 5 6 6 7 7 8 8 9 9 9 10 10 10 10 
14 22 IA ES 5 6 7 7 8 8 9 9 9 10 10 10 11 11 
15 2 3 3. ES 6 6 y v 8 8 9 9 10 10 11 11 11 12 
I 2 3 A4 4 5 6 6 Y 8 8 9 9 10 10 11 11 11 12 12 
72 2 3 4 4 5 6 Y y 8 9 9 10 10 11 11 11 12 12 13 
eo 2 IAES 5 6 7 8 8 9 9 10 10 11 11 12 112 13 13 
TZ 3.4.5 6 6 7 8 8 9 10 10 11 lí 12 12 5 13 13 
20 2 ES 6 6 7 8 9 9 10 10 11 1172 12 13 13 13 14 


Nota: Las tablas D.6A y D.6B dan los valores críticos de n rachas para diversos valores de N, (símbolo +) y N, (símbolo —). Para una prueba de rachas de una 
muestra, cualquier valor de n igual o menor que el que aparece en la tabla D.6A, o igual o superior al que aparece en la tabla D.6B, es significativo en el nivel 

de 0.05. 

Fuente: Sidney Siegel, Nonparametric Statistics for the Behavioral Sciences, McGraw-Hill, Nueva York, 1956, tabla F, pp. 252-253. Siegel adaptó las tablas de la 
fuente original: Frieda S. Swed y C. Eisenhart, “Tables for Testing Randomness of Grouping in a Sequence of Alternatives”, Annals of Mathematical Statistics, 
vol. 14, 1943. Se reproducen con permiso de McGraw-Hill Book Company y de Annals of Mathematical Statistics. 


TABLA D.6B Valores críticos de rachas en la prueba de rachas 


N2 
N 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 
2 
3 
4 9 9 
5 9 10 10 11 11 
6 9 10 11 12 12 18 13 1s 13 
7 11 12 18 18 1 1 ME ME TS S lS 
8 11 12 13 14 14-15 ils 16 716 16 16 17 WA 1% y 17 
9 13 14-14 15 16 “6 16 17/ 1/7 18 18 Me e 16 18 
10 3 14 15 16 16 117% Y 18 18 18 19 19 19 20 20 
11 13 14 TS 16 17 17% 18 19 190 19 20 20 20 4 21 
112 18 144 1S 16 Y le 19 19 29 49 21 21 22 m22 
13 IS 16 IZ 18 19 19 20 20 A 21 II ZAS 
14 IS “16 gx 18 19 20 20 2 P POA PAA LL EZ 
15 is 16 18 Wao 19) 20 A 22 m22 T2 ZA ZS 
16 WA US 19 209 2] 21 DIAS LS ZA LS LS 
17 IZ 1 190 20 Al 2a PA 2 AA 2D 2S Ao Ae 
18 17 US 10 20 l IL PA 25 ELL CL IZ 
19 ir TS 20 24 22 2a PA PU 23 M0 Aa 2 2) 


20 7 18 29 Zi 22 23 24. 29 295 20 2/ 21 Aa 
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EJEMPLO 2 En una sucesión de 30 observaciones consistentes en 20 signos + (= Nr) y en 10 signos — 
(= No), los valores críticos de las rachas en el nivel de significancia de 0.05 son 9 y 20, como 
indican las tablas D.6A y D.6B, respectivamente. Por consiguiente, si en una aplicación se en- 
cuentra que el número de rachas es igual o menor que 9 o igual o mayor que 20, se rechaza la 
hipótesis (en un nivel de significancia de 0.05) de que la secuencia observada es aleatoria. 


TABLA D.7 Valores críticos Dickey-Fuller £ (= T) a 1% y 5%, así como valores F para pruebas de raíz unitaria 


Tamaño de tnc” to ta” El A 
la muestra 1% 5% 1% 5% 1% 5% 1% 5% 1% 5% 
25 —2.66 —1.95 —3.75 —3.00 —4.38 —3.60 10.61 7.24 8.21 5.68 
50 —2.62 1.95 3.58 2.93 4.15 —3.50 9.31 6.73 7.02 SS 
100 —2.60 1.95 3.51 —2.89 —4.04 —3.45 8.73 6.49 6.50 4.88 
250 —2.58 1.95 —3.46 —2.88 —3.99 —3.43 8.43 6.34 6.22 4.75 
500 —2.58 1.95 —3.44 —2.87 3.98 —3.42 8.34 6.30 6.15 4.71 
00 —2.58 1.95 —3.43 —2.86 —3.96 —3.41 8.27 6.25 6.09 4.68 


* Los subíndices nc, c y tc denotan, respectivamente, que no hay término constante, que hay término constante y que está presente un término constante y uno de ten- 
dencia en la regresión (21.9.5). 


Ť Los valores críticos de F son para las hipótesis conjuntas en las que los términos constante y ô en (21.9.5) son al mismo tiempo cero. 

t Los valores críticos de F son para las hipótesis conjuntas en las cuales los términos constante, de tendencia y ô en (21.9.5) son al mismo tiempo iguales a cero. 
Fuente: Adaptado de W.A. Fuller, Introduction to Statistical Time Series, John Wiley & Sons, Nueva York, 1976, p. 373 (para la prueba 7), y D.A. Dickey y W.A. Fuller, 
“Likelihood Ratio Statistics for Autoregressive Time Series with a Unit Root”, Econometrica, vol. 49, 1981, p. 1063. 


Apéndice 


E.l EViews 


Resultados 
de computadora de 
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Excel y STATA 


En este apéndice presentamos los resultados de computadora con EViews, MINITAB, Excel y 
STATA, algunos paquetes estadísticos populares para regresión y rutinas estadísticas relaciona- 
das. Se emplean los datos de la tabla E.1 del sitio Web del libro para ilustrar los resultados que 
arrojan estos paquetes. La tabla E.1 proporciona datos sobre la tasa de participación en la fuerza 
laboral civil (CLFPR), la tasa de desempleo civil (CUNR) y el salario promedio real por hora en 
dólares de 1982 (AHE82) para la economía de Estados Unidos de 1980 a 2002. 

Aunque en muchos aspectos los resultados básicos de la regresión son parecidos en todos 
estos paquetes, hay diferencias de forma. Algunos paquetes presentan resultados de varios dígi- 
tos, mientras que otros los aproximan a cuatro o cinco dígitos. Algunos paquetes proporcionan 
directamente las tablas del análisis de varianza (ANOVA), en tanto que en otros es necesario de- 
rivarlas. También existen diferencias en algunos resúmenes estadísticos de los diversos paquetes. 
Escapa al propósito de este apéndice enumerar todas las diferencias en estos paquetes estadísti- 
cos. Recomendamos al lector consultar información en los sitios Web de estos paquetes. 


Con la versión 6 de EViews efectuamos la regresión de CLFPR sobre CUNR y AHE82 y obtu- 
vimos los resultados de la figura E.1. 

Es el formato normal en que se presentan los resultados de EViews. La primera parte de esta 
figura presenta los coeficientes de regresión, los errores estándar estimados, los valores £ según la 
hipótesis nula de que los valores poblacionales correspondientes de estos coeficientes son cero, 
y los valores p de estos valores t. Enseguida se presentan R? y R? ajustada. El otro resumen en la 
primera parte relaciona el error estándar de la regresión, la suma de cuadrados residual (SCR) 
y el valor F para probar la hipótesis de que los (verdaderos) valores de todos los coeficientes de 
pendiente son, simultáneamente, iguales a cero. A menudo se usan los criterios de información 
de Akaike y Schwarz para elegir entre modelos rivales. Cuanto más bajo sea el valor de estos 
criterios, mejor será el modelo. El método de máxima verosimilitud (MV) es una alternativa al 
método de mínimos cuadrados. Así como en MCO se encuentran los estimadores que reducen la 


FIGURA E.1 

Resultados de EViews de 
la regresión de la partici- 
pación en la fuerza laboral 
civil. 
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Variable dependiente: CLFPR 
Método: Mínimos cuadrados 
Muestra: 1980-2002 
Observaciones incluidas: 23 


Variable Coeficiente Error estándar Estadístico £ Prob. 
C 80.90133 4.756195 17.00967 0.0000 
CUNR —0.671348 0.082720 —8.115928 0.0000 
AHE82 —1.404244 0.608615 -2.307278 0.0319 
R cuadrada 0.772765 Media de la variable dependiente 65.89565 
R cuadrada ajustada 0.750042 Desviación estándar de la variable dependiente 1.168713 
Error estándar de la regresión 0.584308 Criterio de información de Akaike 1.884330 
Suma de cuadrados residual 6.828312 Criterio de Schwarz 2.032438 
Log verosimilitud -18.66979 Estadístico F 34.00731 
Estad. Durbin-Watson 0.787625 Prob. (estadístico F) 0.000000 
Obs. Real Ajustado Residuo Gráfico de residuos 
1980 63.8000 65.2097 — 1.40974 
1981 63.9000 65.0004 —1.10044 
1982 64.0000 63.6047 0.39535 
1983 64.0000 63.5173 0.48268 
1984 64.4000 64.9131 —0.51311 
1985 64.8000 65.1566 —0.35664 
1986 65.3000 65.2347 0.06526 
1987 65.6000 65.8842 —0.28416 
1988 65.9000 66.4103 —0.51027 
1989 66.5000 66.6148 —0.11476 
1990 66.5000 66.5819 —0.08186 
1991 66.2000 65.8745 0.32546 
1992 66.4000 65.4608 0.93923 
1993 66.3000 65.8917 0.40834 
1994 66.6000 66.4147 0.18530 
1995 66.6000 66.7644 —0.16441 
1996 66.8000 66.8425 —0.04251 
1997 67.1000 67.0097 0.09032 
1998 67.1000 66.9974 0.10263 
1999 67.1000 67.0443 0.05569 
2000 67.2000 67.1364 0.06355 
2001 56.9000 66.4589 0.44105 
2002 66.6000 65.5770 1.02304 
Serie: Residuos 
o Muestra: 1980-2002 
Observaciones: 23 
no Media -1.39e-14 
Mediana 0.063552 
— Máximo 1.023040 
Mínimo —1.409735 
Desv. est. 0.557116 
o Asimetría  —0.593013 
Curtosis 3.752631 
E Jarque-Bera 1.890898 
Probabilidad 0.388505 
Í | | Í i | Í 
1,5 1.0 0.5 0.0 0.5 1.0 
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suma de cuadrados de los errores, en MV tratamos de encontrar los estimadores que maximizan 
la posibilidad de observar la muestra en cuestión. Según el supuesto de normalidad del término 
de error, MCO y MV proporcionan estimaciones idénticas de los coeficientes de regresión. Con 
el estadístico de Durbin-Watson se averigua si hay correlación serial de primer orden en los tér- 
minos de error. 

La segunda parte de los resultados de EViews proporciona los valores reales y ajustados de 
la variable dependiente y la diferencia entre los dos, que representa los residuos. La gráfica 
de estos residuos aparece a un lado de estos resultados con una línea vertical que denota cero. Los 
puntos a la derecha de la línea vertical son residuos positivos y los que aparecen a la izquierda 
residuos negativos. 

La tercera parte de los resultados presenta el histograma de los residuos junto con un resumen 
estadístico. Da el estadístico de Jarque-Bera (JB) para probar la normalidad de los términos de 
error y también presenta la probabilidad de obtener los estadísticos indicados. Cuanto más alta 
sea la probabilidad de obtener el estadístico JB observado, mayor será la evidencia en favor de la 
hipótesis nula de que los términos de error están distribuidos normalmente. 

Observe que EViews no proporciona directamente la tabla de análisis de varianza (ANOVA), 
pero se genera con facilidad a partir de los datos sobre la suma de cuadrados residual, la suma de 
cuadrados total (que a su vez debe derivarse de la desviación estándar de la variable dependiente) 
y los grados de libertad asociados. El valor F obtenido en este ejercicio debe ser igual al valor F 
reportado en la primera parte de la tabla. 


E.2 MINITAB 


Con la versión 15 de MINITAB y los mismos datos obtuvimos los resultados de la regresión de 
la figura E.2. 

MINITAB presenta primero la regresión múltiple estimada. Esto va seguido de una lista de 
variables predictoras (es decir, explicativas), los coeficientes de regresión estimados, los errores 
estándar, los valores T (= £) y los valores p. En estos resultados S representa el error estándar de 
la estimación, y los valores de R? y R? ajustada se presentan en forma porcentual. 

A continuación se presenta la tabla ANOVA habitual. Una característica de la tabla ANOVA es 
que desglosa la regresión, o suma de cuadrados explicada, entre las variables predictoras. Así, de 
la suma de cuadrados total de la regresión de 23.226, la parte correspondiente a CUNR es 21.404 
y la que corresponde a AHE82 es 1.822, lo que indica que, en términos relativos, CUNR tiene un 
efecto más importante en CLFPR que AHE82. 

Una característica exclusiva de los resultados de la regresión de MINITAB es que reportan 
las observaciones “atípicas”, es decir, las observaciones de algún modo diferentes del resto de las 
observaciones de la muestra. Se hace referencia a esto en la gráfica de residuos presentada en los 
resultados de EViews, pues muestra que las observaciones 1 y 23 se encuentran muy lejos de la 
línea de cero que ahí se presenta. MINITAB también produce una gráfica de residuos parecida a 
la de EViews. El término Resid est en estos resultados significa residuos estandarizados, es decir, 
los residuos divididos entre S, el error estándar de la estimación. 

Al igual que EViews, MINITAB también presenta el estadístico de Durbin-Watson y el his- 
tograma de residuos. El histograma es una representación visual. Si su forma se parece a la 
distribución normal, es probable que los residuos estén distribuidos normalmente. La gráfica de 
probabilidad normal cumple el mismo propósito. Si los residuos estimados se encuentran aproxi- 
madamente en línea recta, podemos afirmar que están distribuidos normalmente. El estadístico de 
Anderson-Darling (AD), un estadístico asociado a la gráfica de la probabilidad normal, prueba la 
hipótesis de que la variable en consideración (en este caso, los residuos) está distribuida normal- 
mente. Si el valor p del estadístico AD calculado es razonablemente alto, por ejemplo, superior 
a 0.10, concluimos que la variable está distribuida normalmente. En este ejemplo, el estadístico 
AD tiene un valor de 0.481 con un valor p de alrededor de 0.21 o 21%. Por tanto, la conclusión 
es que los residuos obtenidos del modelo de regresión tienen distribución normal. 
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FIGURA E.2 Resultados de MINITAB de la tasa de participación en la fuerza laboral civil. 


E.3 


Frecuencia 


Análisis de regresión: CLFPR sobre CUNR, AHE82 


La ecuación de regresión es: 
CLFPR = 81.0 — 0.672 CUNR — 1.41 AHE82 


Predictor Coef. SE coef. T P 
Constante 80.951 4.770 16.97 0.000 
CUNR —0.67163 0.08270 —8.12 0.000 
AHE82 —1.4104 0.6103 =231 0.032 


S = 0.584117 R cuadrada = 77.3% R cuadrada (ajust.) = 75% 


Análisis de varianza 


Origen GL SC SP Ẹ P 
Regresión 2 23.226 11.613 34.04 0.000 
Error residual 20 6.824 0.341 

Total 22 30.050 

Origen GL SC sec. 

CUNR 1 21.404 

AHE82 1 1.822 


Observaciones atípicas 


Obs. CUNR CLFPR Ajustado ES ajustado Residuo Resid est. 
1 7.10 63.800 65.209 0.155 —1.409 =2.50R 
23 5.80 66.600 65.575 0.307 1.025 2.06R 


R denota una observación con un residuo estandarizado grande. 


Estadístico de Durbin-Watson = 0. 787065 


Histograma de residuos Gráfica de probabilidad de RESI1 
(la respuesta es CLFPR) Normal 
9 n 
Media —4.479511 
8 Desv. est. 0.5569 
aL N 23 
AD 0.481 
L Val 0.210 
6 mi alor p 
y 
4} E 
2 
3 b 
2H 
Ni 
0 
1.5 0.5 0.0 0.5 1.0 
Residuo 
Excel 


Con Microsoft Excel obtuvimos los resultados de la regresión de la tabla E.2. 

Excel presenta primero un resumen estadístico, como R?, R múltiple, que es la raíz cuadrada 
(positiva) de R?, R? ajustada y el error estándar de la estimación. Luego presenta la tabla ANOVA. 
A continuación presenta los coeficientes estimados, los errores estándar, los valores £ de los co- 


898 Apéndice E Resultados de computadora de EViews, MINITAB, Excel y STATA 


TABLA E.2 
Resultados de Excel de 
la tasa de participación 
en la fuerza laboral civil 


E.4 STATA 


Resumen de resultados 


Estadísticas de la regresión 


R múltiple 0.879155 
R cuadrada 0.772914 
R ajustada 0.750205 
Error estándar 0.584117 
Observación 23 
ANOVA 
gl SC SP F Significancia de F 
Regresión 2 23.22572 11.61286 34.03611 3.65E-07 
Residuo 20 6.823846 0.341192 
Total 22 30.04957 
Error 95% 95% 
Coeficiente estándar Est. t Valor p inferior superior 


Intercept 80.95122 4.770337 16.96971 2.42E-13 71.00047 90.90196 
CUNR —0.671631 0.082705 —8.120845 9.24E-08 —0.84415 —0.499112 
AHE82 —1.410432 0.610348 —2.310867 0.031626 -—2.683594 -—0.13727 


eficientes estimados y sus valores p. También proporciona los valores reales y estimados de la 
variable dependiente y la gráfica de residuos, así como la gráfica de probabilidad normal. 

Una característica única de Excel es que proporciona el intervalo de confianza a 95% (o cual- 
quier porcentaje especificado) de los verdaderos valores de los coeficientes estimados. Así, el 
valor estimado del coeficiente de CUNR es —0.671631 y el intervalo de confianza del verdade- 
ro valor del coeficiente de CUNR es (—0.84415 a —0.499112). Esta información es muy valiosa 
para las pruebas de hipótesis. 


Con STATA obtuvimos los resultados de la regresión de la tabla E.3. 

STATA presenta primero la tabla del análisis de varianza junto con un resumen de estadísticos, 
como R?, R? ajustada y la raíz del error cuadrático medio (ECM), que es simplemente el error 
estándar de la regresión. 

Enseguida proporciona los valores de los coeficientes estimados, sus errores estándar y va- 
lores £, y los valores p de los estadísticos f, así como el intervalo de confianza a 95% de cada 
coeficiente de regresión, de forma similar a los resultados de Excel. 


E.5 Comentarios finales 


Presentamos sólo los resultados básicos de estos paquetes para ilustrar el ejemplo. Sin embargo, 
cabe señalar que los paquetes como EViews y STATA son muy amplios y contienen muchas de 
las técnicas econométricas que estudiamos en este libro. Una vez que aprende a entrar a estos pa- 
quetes, la ejecución de las diversas subrutinas es cuestión de práctica. Si desea seguir estudiando 
econometría, es conveniente que adquiera uno o más de estos paquetes. 
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TABLA E.3 E 
Resultados de STATA de o a7 
la tasa de participación E y; 


en la fuerza laboral civil Estadística/análisis de datos 


Proyecto: Datos de la tabla E.1 


tm 


/ / 
—/ / /—/ / 12 ./8.0 Copyright 1984-2003 
Estadística/análisis de datos Stata Corporation 

4905 Lakeway Drive 

College Station, Texas 77845 USA 
800-STATA-PC  http://www.stata.com 
979-696-4600  stataOstata.com 
979-696-4601 (fax) 


regresión de clfpr sobre cunr ahe82 


Número de obs. = 23 
Origen SC gl SP F(2, 20) = WA 
Prob > F = 0.0000 
Modelo 23.2256929 2 11.6128465 R cuadrada | = 0.7729 
Residuo 6.82384072 20 .341192036 i o ió = a 
Total 30.0495337 22 1.36588789 ni = 
clfpr Coef. Error estándar t p> li] [Intervalo de conf. a 95%] 
cunr  -.6716305 .0827045 -8.12 0.000  -.8441491 -.4991119 
ahe82 -1.410433 .6103473 -2.31 0.032 -2.683595 -.1372707 


_cons 80.95122 4.770334 16.97 0.000 71.00048 90.90197 


Referencias 


WWW.eviews.com 
www.stata.com 
www.minitab.com 
Microsoft Excel 


R. Carter Hill, William E. Griffiths y George G. Judge, Using Excel for Undergraduate Econo- 
metrics, John Wiley & Sons, Nueva York, 2001. 


Apéndice 


Datos económicos 


en la World Wide 
Web“ 


Economic Statistics Briefing Room: Es una fuente excelente de datos sobre producto, ingreso, 
empleo, desempleo, utilidades, producción y actividades empresariales, así como de precios y 
dinero, créditos y mercados de valores, y estadísticas internacionales. 
http://www.whitehouse.gov/fsbr/esbr.htm 

Federal Reserve System Beige Book: Proporciona un resumen de las condiciones actuales de la 
economía por cada distrito de la Reserva Federal. Actualmente existen 12 distritos de la Reserva 
Federal. 

http://www.federalreserve.gov/FOM/BEIGEBOOK 

Página del National Bureau of Economic Research (NBER): Este instituto privado de investi- 
gación económica, que goza de mucho prestigio y reconocimiento, tiene una gran cantidad 
de datos sobre precios de activos, mano de obra, productividad, oferta de dinero, indicadores de 
ciclos económicos, etc. NBER proporciona muchos enlaces con otros sitios Web. 
http://www.nber.org 

Panel Study: Proporciona datos de encuestas longitudinales sobre muestras representativas de 
individuos y familias estadounidenses. Estos datos se recopilan anualmente desde 1968. 

http: //psidonline.isr.umich.edu/ 

Resources for Economists on the Internet: Fuente muy completa de información y datos sobre 
muchas actividades económicas que tiene enlaces con gran cantidad de sitios Web. Es una fuente 
muy valiosa para los economistas académicos y no académicos. 

http://rfe.org/ 

American Stock Exchange: Dispone de información sobre las casi 700 compañías que cotizan en 
el segundo mercado bursátil más grande del mundo. 

http: //www.amex.com/ 

Página del Bureau of Economic Analysis (BEA): Esta oficina del Departamento de Comercio de 
Estados Unidos, que publica Survey of Current Business, es una excelente fuente de datos sobre 
todo tipo de actividades económicas. 

http://www.bea.gov/ 

Publicaciones de la CIA: En esta página se puede consultar el World Fact Book (anuario) 
y el Handbook of International Statistics. 

http://www.cia.gov/library/publications 


* Adaptado de Annual Editions: Microeconomics 98/99, ed. Don Cole, Dushkin/McGraw-Hill, Connecticut, 
1998. Debe señalarse que esta lista no es exhaustiva. Las fuentes aquí incluidas se actualizan continuamente. 
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Energy Information Administration (DOE): Contiene información económica y datos 
sobre cada categoría de combustibles. 

http://www.eia.doe.gov/ 

FRED Database: El Banco de la Reserva Federal de St. Louis publica datos históricos 
económicos y sociales en los que se incluyen tasas de interés, indicadores monetarios y 
de negocios, tipos de cambio, etcétera. 

http://research.stlouisfed.org/fred2/ 

International Trade Administration: Ofrece muchos enlaces Web con estadísticas sobre 
comercio, programas internacionales, etcétera. 

http://trade.gov/index.asp 

STAT-USA Databases: El National Trade Data Bank representa la fuente más completa 
de datos sobre comercio internacional e información sobre fomento a la exportación. 
Cuenta con una gran cantidad de datos sobre condiciones demográficas, políticas y so- 
cioeconómicas en distintos países. 

http://www.stat-usa.gov/ 

Statistical Resources on the Web/Economics: Es una excelente fuente de datos estadís- 
ticos cotejados de diversas dependencias federales estadounidenses, indicadores econó- 
micos, la Junta de la Reserva Federal, datos sobre precios al consumidor y enlaces Web 
con otras fuentes. 

http://www.lib.umich.edu/govdocs/stats.html 

Bureau of Labor Statistics: La página principal contiene datos relacionados con diversos 
aspectos del empleo, desempleo y salarios; proporciona también enlaces con otros si- 
tios Web de estadísticas. 

http://www.stats.bls.gov/ 

Página de U.S. Census Bureau: Es la fuente primordial de datos sociales, demográficos 
y económicos sobre ingreso, empleo, distribución del ingreso y pobreza. 
http://www.census.gov/ 

General Social Survey: Encuesta anual mediante entrevistas personales sobre las fa- 
milias estadounidenses, la cual empezó a realizarse en 1972. Más de 35 000 familias han 
respondido a unas 2 500 preguntas que abarcan una gran variedad de datos. 
http://www.norc.org/GSS+website/ 

Institute for Research on Poverty: Datos recopilados por un centro de investigación uni- 
versitario, no lucrativo y apolítico, respecto de la pobreza y la desigualdad social. 
http://www.irp.wisc.edu/ 

Social Security Administration: Sitio web oficial de la Social Security Administration 
que contiene una gran variedad de datos. 

http://www.ssa.gov/ 
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reglas para, 699-703 
Identificación exacta (precisa), 694-697 
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Índice de conveniencia, 566 
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Inferencia estadística, 8 
Información a priori, 342-343 
Ingreso personal disponible (IPD), 738,739 
Innovaciones, 785 
Insesgamiento, 520-521, 826, 827 
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de estimadores de mínimos cuadrados, 
92-93 
de MELI, 72 
supuesto relacionado con, 189, 367 
Institucionales, 622 
Institute for Research on Poverty, 901 
Integrado de orden 1, 746 
Integrado de orden 2, 746 
Integrado de orden d, 747 
Interacción entre regresoras, 470 
Intercepto, 3 
Intercorrelación, medición de, 32 
Internal Revenue Service (IRS), 27 
International Trade Administration, 901 
Internet, 25 
Interpolación, 417 
Intervalo aleatorio, 108 
Intervalo de confianza simultáneo, 111 
Intervalos de confianza, 128, 824 
definición, 108 
para 6 y £2 simultáneamente, 111 
para 2, 109-111 
para o°, 111-112 
y multicolinealidad, 330 
Inversa de una matriz cuadrada, 847 
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Inversión de matrices, 843 
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IPC (ver Índice de precios al consumidor) 
IPD (ver Ingreso personal disponible) 
IRS (Internal Revenue Service), 27 


“Juego” de maximizar el coeficiente ajustado 
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K ecuaciones normales, 874 


Leptocúrtico, 816 
Ley de la gravedad de Newton, 19 
Ley de las esperanzas iteradas, 815 
Ley de Ohm, 19 
Ley de regresión universal, 15 
LFV (ver Logaritmo de la función de verosi- 
militud) 
Límite de confianza inferior, 108 
Límite de confianza superior, 108 
Límite de probabilidad (plim), 681 
Límites de confianza, 108 
Línea característica, 133-134, 148, 727 
Línea de regresión, 16 
Línea de regresión muestral, 44 
Línea de regresión poblacional (LRP), 36, 37 
Línea del mercado de valores (LMV), 148 
Lineal en parámetro (supuesto 1), 62 
Linealidad, 38-39 
de los estimadores de mínimos cuadrados, 
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del MELI, 71 
en parámetros, 38-39 
en variables, 38 
LMV (línea del mercado de valores), 148 
Logaritmo de la función de verosimilitud 
(LFV), 590, 825 
Logaritmos, 184-186 
Logaritmos comunes, 184 
Logaritmos naturales, 184, 185 
“Los diez mandamientos de la econometría 
aplicada” (Peter Kennedy), 511 
LRP (ver Línea de regresión poblacional) 
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Manipulación de datos, 417 
MAP (ver Modelo de ajuste parcial) 
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adjunta, 846 

cuadrada, 839 

de cofactor, 846 

definición, 838 
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escalar, 840 
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iguales, 840 

nula, 840 

rango de, 845-846 
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vector nulo, 840 
Matriz adjunta, 846 
Matriz cuadrada, 839, 847 
Matriz de cofactores, 846 
Matriz de correlación, 348, 859 
Matriz de datos, 850 
Matriz de varianza-covarianza, 852-853, 856- 
857, 875 
Matriz de varianza-covarianza simétrica, 853 
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Matriz identidad, 840 
Matriz no singular, 844 
Matriz nula, 840 
Matriz simétrica, 840 
Matriz singular, 844 
Matriz unitaria, 840 
Máxima verosimilitud (MV), 230, 556 
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103-105 

ejemplo de, 105 

método de, 102 
MC2E (ver Mínimos cuadrados en dos etapas) 
MCA (ver Modelo de caminata aleatoria) 
MCE (ver Mecanismo de corrección de erro- 
res) 
MCG (ver Minimos cuadrados generalizados) 
MCGE (mínimos cuadrados generalizados 
estimados), 868 
MCGF (ver Método de mínimos cuadrados 
generalizados factibles) 
MCI (ver Mínimos cuadrados indirectos) 
MCNL (mínimos cuadrados no lineales), 527 
MCO (ver Mínimos cuadrados ordinarios) 
MCP (ver Mínimos cuadrados ponderados) 
MCR (mínimos cuadrados recursivos), 498 
MCR (ver Mínimos cuadrados restringidos) 
MCRL (ver Modelo clásico de regresión li- 
neal) 
MCRLN (ver Modelo clásico de regresión 
lineal normal) 


Mecanismo de corrección de errores (MCE), 
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Medición de la elasticidad, 159-162 
Medición de la tasa de crecimiento, 162-164 
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d de Durbin-Watson y efecto ARCH, 796 
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794-795 
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791-794 
en series de tiempo financieras, 791-796 
modelo GARCH, 796 
presencia de ARCH, 795 
Medición, errores de, 27, 482-486 
Medidas de la oferta monetaria, 139 
MEF (ver Modelo de efectos fijos) 
MEFA (ver Modelo de efectos aleatorios) 
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72, 422, 827, 875-876 
Mejores estimadores insesgados (MEL), 101, 
233n, 827 
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Mesocúrtica, 816 
Método ascendente, 475 
Método clásico, 10 
Método con variables dicótomas, 291, 293n, 
297-299 
Método de búsqueda directa, 529 
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pótesis no anidadas, 488-492 
Método de discriminación para pruebas de hi- 
pótesis no anidadas, 488 
Método de dos pasos de Durbin, 456-457 
Método de ensayo y error, 527-529 
Método de libre derivación, 529 
Método de linealización, 537-538 
Método de los momentos (MOM), 86, 826 
Método de máxima verosimilitud con informa- 
ción completa (MVIC), 712 
Método de mínimos cuadrados generalizados 
factibles (MCGF), 447, 448 
Método de primeras diferencias, 443-445, 601 
Método de variables instrumentales (VI), 636- 
637 
Método generalizado de momentos (MGM), 
826 
Método Holt-Winters, 774 
Método iterativo Cochran-Orcutt (C-O), 446, 
455-456 
Método iterativo Gauss-Newton, 530 
Método iterativo Newton-Raphson, 530 
Método lineal de Holt, 774 
Método Marquard, 530n 
Método MVIC (máxima verosimilitud con in- 
formación completa), 712 
Método Newey-West, 441, 447-448 
Metodología de Box-Jenkins (BJ), 773, 774 
estacionalidad, 784 
estimación del modelo ARIMA, 782 
identificación, 778-782 
pasos de, 777-778 
pronóstico, 782-784 
verificación de diagnóstico, 782 
Metodología econométrica tradicional, 2-3 
Métodos con información limitada, 711 
Métodos de ecuaciones simultáneas, 711-730 
métodos de estimación, 711-712 
ejemplos, 724-729 
errores estándar de los estimadores de 
mínimos cuadrados en dos etapas, 736 
mínimos cuadrados en dos etapas, 718-724 
mínimos cuadrados indirectos, 715-718 
modelos recursivos y MCO, 712-714 
sesgo en los estimadores de mínimos 
cuadrados indirectos, 735 
Métodos de información completa, 711 
Métodos de linealización iterativa, 530 
Métodos de suavizamiento exponencial, 774 
Métodos estadísticos no paramétricos, 758 
Métodos iterativos, 446-447 
Métodos uniecuacionales, 712 


Micronumerosidad, 326, 332 
Micronumerosidad exacta, 326 
Minería de datos, 475-476, 624 
Mínimos cuadrados en dos etapas (MC2B), 
718-724, 736 
Mínimos cuadrados generalizados (MCG), 
371-374, 441-447, 867-868 
Mínimos cuadrados generalizados estimados 
(MCGE), 447, 868 
Mínimos cuadrados indirectos (MCI), 691, 
715-718, 735 
Mínimos cuadrados no lineales (MCNL), 527 
Mínimos cuadrados ordinarios (MCO), 55-85 
(ver también Estimación por MCO; 
estimadores de MCO) 
bondad de ajuste, 73-78 
ejemplos de, 81-83 
MCG frente a, 373-374 
método de, 55-61 
precisión y errores estándar, 69-71 
propiedad MELI de, 875-876 
supuestos, 61-69 
teorema de Gauss-Markov, 71-73 
y experimentos Monte Carlo, 83-84 
y modelos recursivos, 712-714 
Mínimos cuadrados ponderados (MCP), 373, 
389-390, 409-410 
Mínimos cuadrados recursivos (MCRE), 498 
Mínimos cuadrados restringidos (MCR), 249- 
252, 481, 873-874 
MINITAB, 896-897 
MLP (ver Modelo lineal de probabilidad) 
MMG (método generalizado de momentos), 
826 
MNRL (modelo neoclásico de regresión li- 
neal), 63 
Modelo (término), 3 
Modelo acelerador de inversión, 622 
Modelo acelerador de macroeconomía, 687 
Modelo Almon de rezagos distribuidos, 645-652 
Modelo ARCH (ver Modelo de heteroscedasti- 
cidad condicional autorregresiva) 
Modelo ARIMA (ver Modelo autorregresivo 
integrado de promedios móviles) 
Modelo autorregresivo integrado de promedios 
móviles (ARIMA), 773-777 
del tipo de cambio yen/dólar, 797 
estimación de, 782 
Modelo clásico de regresión lineal (MCRL): 
bondad de ajuste, 73-78 
definición, 13 
ejemplos de, 78-83 
precisión y errores estándar, 69-71 
problemas en la aplicación, 319 
supuestos, 61-69, 85, 315-319 
teorema de Gauss-Markov, 71-73 
y experimentos Monte Carlo, 83-84 
Modelo clásico de regresión lineal normal 
(MCRLN), 97-102 
definición, 13 
distribución de probabilidad de las perturba- 
ciones, 97-98 
método de máxima verosimilitud, 102 
supuesto de normalidad, 98-101 


Modelo con heteroscedasticidad condicional 
autorregresiva generalizada (GARCH), 
449-450, 773, 796 
Modelo con intercepto cero, 148-150 
Modelo de acelerador flexible, 632 
Modelo de ajuste de existencias, 632 
Modelo de ajuste parcial (MAP), 632-634 
Modelo de caminata aleatoria (MCA), 741-746 
Modelo de coeficientes constantes (ver Modelo 
de regresión con MCO agrupados) 
Modelo de componentes del error (ver Modelo 
de efectos aleatorios) 
Modelo de correlación serial, 660 
Modelo de crecimiento logístico, 532 
Modelo de datos de cuenta, 576-579 
Modelo de efectos aleatorios (MEFA), 602-607 
Modelo de efectos fijos (MEF), 596, 606-607 
Modelo de efectos fijos bidireccionales, 598 
Modelo de elasticidad constante, 160 
Modelo de expectativas adaptativas, 629-631, 
634 
Modelo de gasto público de Pindyck-Rubin- 
feld, 704-705 
Modelo de heteroscedasticidad condicional au- 
torregresiva (ARCH), 449-450, 773 
de la tasa de inflación de EE.UU., 797-798 
en la medición de la volatilidad, 791, 793, 
794 
Modelo de Koyck, 624-629 
combinación de los modelos de expectativas 
adaptativas y ajuste parcial, 634 
ejemplo de uso, 627-629, 631 
rezago mediano en, 627 
rezago medio en, 627 
y modelo de ajuste parcial, 632-633 
y modelo de expectativas adaptativas, 
629-631 
Modelo de la teoría del portafolio del mercado, 
148, 149 
Modelo de mínimos cuadrados con variable 
dicótoma (MCVD), 596-599 
Modelo de mínimos cuadrados con variable 
dicótoma de efectos fijos, 596-599 
Modelo de oferta y demanda, 674-675 
Modelo de regresión aparentemente no relacio- 
nado (SURE), 59%n, 714n, 785n 
Modelo de regresión Box-Cox, 187 
Modelo de regresión con dos variables, 147- 
175 
ejemplo hipotético de, 34-37 
estimación del intervalo, 107-112 
intervalos de confianza, 109-112 
prerrequisitos estadísticos, 107 
medición de la elasticidad, 159-162 
medición de la tasa de crecimiento, 162- 
166 
modelos funcionales de, 159 
modelo log-lineal, 159-162 
modelos recíprocos, 166-172 
modelos semilog, 162-166 
selección, 172-173 
problema de estimación, 55-85 
coeficiente de determinación r°, 73-78 
ejemplos, 78-83 
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experimentos Monte Carlo, 83-84 
método de mínimos cuadrados ordinarios, 
55-61 
modelo clásico de regresión lineal, 61-69 
precisión y errores estándar, 69-71 
teorema de Gauss-Markov, 71-73 
pruebas de hipótesis, 113-124 
aceptación o rechazo de la hipótesis, 119 
enfoque de pruebas de significancia, 
115-119 
enfoque del intervalo de confianza, 
113-115 
formación de hipótesis nula/alternativa, 
121 
hipótesis nula cero y regla práctica 2£, 120 
nivel exacto de significancia, 122-123 
selección del método, 124 
selección del nivel de significancia, 
121-122 
significancia estadística vs. práctica, 
123-124 
regresión a través del origen, 147-153 
sobre variables estandarizadas, 157-159 
y error estocástico, 174-175 
y escalas/unidades de medición, 154-157 
Modelo de regresión con MCO agrupados, 
594-596 
Modelo de regresión con tres variables: 
coeficiente múltiple de correlación, 198 
coeficiente múltiple de determinación, 
196-197 
coeficientes de regresión parcial, 191-192 
ejemplo, 198-200 
estimación de los coeficientes de regresión 
parcial, 192-198 
función de producción Cobb-Douglas, 
207-209 
interpretación de la ecuación de regresión, 
191 
notación y supuestos, 188-190 
R? ajustada, 201-207 
sesgo de especificación, 200-201 
variables estandarizadas, regresión sobre, 
199-200 
Modelo de regresión de Poisson, 576-579 
Modelo de regresión exponencial, 159, 527 
Modelo de regresión lineal con dos variables, 
13 
Modelo de regresión lineal con K variable, 
849-851 
Modelo de regresión lineal estándar (ver Mo- 
delo clásico de regresión lineal) 
Modelo de regresión múltiple, 14 
Modelo de regresora estocástica, 63, 316-317 
Modelo de rezagos distribuidos en V invertida, 
664 
Modelo de rezagos distribuidos finitos, 623 
Modelo de rezagos distribuidos triangular (arit- 
mético), 661 
Modelo de rezagos infinito, 623 
Modelo de tendencia lineal, 164 
Modelo de vectores autorregresivos (VAR), 
653, 655, 773, 775 
aplicación en la economía de Texas, 789-790 
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causalidad, 787-788 

datos de series de tiempo, 784-790 
estimación, 785-786 

problemas con, 788-789 
pronóstico, 786-787 


Modelo del multiplicador de Lagrange (ML), 


678 


Modelo doble-log, 159 
Modelo GARCH (ver Modelo con heterosce- 


dasticidad condicional autorregresiva 
generalizada) 


Modelo GARCH-M (GARCH en la media), 


799 


Modelo gaussiano de regresión lineal (ver Mo- 


delo clásico de regresión lineal) 


Modelo glogit (ver Modelo logit agrupado) 
Modelo gprobit (ver Modelo probit agrupado) 
Modelo I de Klein, 679, 725-726 

Modelo inclusivo, 468 

Modelo IS de macroeconomía, 677-678 
Modelo keynesiano de determinación del in- 


greso, 675-676 


Modelo lineal de probabilidad (MLP), 543-549 


alternativas, 552-553 

aplicaciones, 549-552 

bondad de ajuste, 546-547 

definición, 543 

efecto del cambio unitario en el valor de una 
regresora, 571 

ejemplo, 547-549 

no cumplimiento de E entre 0 y 1, 545 

no normalidad de las perturbaciones, 544 

varianzas heteroscedásticas de las perturba- 
ciones, 544-545 


Modelo lin-log, 162, 164-166 
Modelo log hipérbola, 172 
Modelo logit, 553-555 


agrupado (glogit), 558-561 

datos no agrupados, 561-566 

efecto del cambio unitario en el valor de una 
regresora en, 571 

estimación de, 555-558 

estimación de máxima verosimilitud, 
589-590 

multinomial, 580 

ordinal, 580 


efecto de un cambio unitario en el valor de 
una regresora en, 571 
estimación de máxima verosimilitud, 
589-590 
multinomial, 580 
ordinal, 580 
y modelo logit, 571-573 
Modelo recíproco logarítmico, 172 
Modelo revisado de St. Louis, 728-729 
Modelo SURE (ver Modelo de regresión apa- 
rentemente no relacionado) 
Modelo tobit, 574-577 
Modelo uniecuacional, 3 


gresivos) 
Modelos de regresión lineal, 38, 39 
ejemplo de, 4 
estimación de, 527 
frente a modelo log-lineal, 260-261 
frente a modelo no lineal, 525-526 
Modelos econométricos: 
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de consumo, 4-5 
de Klein, 679 
ejemplo de, 4 
estimación de, 5, 7 
selección de, 9, 10 


Modelos ANCOVA (ver Modelos de análisis de 


covarianza) 
Modelos anidados, 487 
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varianza) 
Modelos ateóricos, 788 
Modelos autorregresivos (AR), 434, 491, 617, 
775-776 
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ejemplos de, 639-645 
estimación de, 633-636 


método de variables instrumentales, 636-637 
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Modelos con variable dependiente dicótoma, 
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Modelos con variable dependiente limitada, 
574 


Modelo VAR (ver Modelo de vectores autorre- 


Modelos de análisis de covarianza (ANCOVA), 
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594-596 
variables dicótomas en, 297 
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Modelos de duración, 580-581 
Modelos de ecuaciones simultáneas, 673-684 
ejemplos de, 674-679 
naturaleza de, 673-674 
Modelos de gasto de Engel, 165 
Modelos de regresión, 159 
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dinámicos, 418, 617 
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medición del crecimiento, 162-166 
modelo log-lineal, 159-162 
modelos recíprocos, 166-172 
modelos semilog, 162-166 
selección, 172-173 
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y error estocástico, 174-175 
Modelos de regresión con ecuaciones simultá- 
neas, 774 
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neales, 525-526 
Modelos de regresión no lineal (MRNL), 38, 
39, 525-535 
ejemplos, 530-534 
estimación de, 527 
lineal frente a, 525-526 
método de búsqueda directa, 529 
método de ensayo y error, 527-529 
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optimización directa, 529 
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modelo tobit, 574-577 
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Muestreo, 27, 824 
Muestreo repetido, 84 
Multicolinealidad, 320-351 
alta pero imperfecta, 325-326 
consecuencias prácticas de, 327-332 
intervalos de confianza, 330 
micronumerosidad, 332 
razón £, 330, 331 
sensibilidad ante cambios pequeños en los 
datos, 331-332 
varianza de los estimadores de MCO, 
328-330 
consecuencias teóricas de, 326-327 
definición, 321 
detección de, 337-341 
efectos de, 347 
ejemplo, 332-337 
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factores en, 323 
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342-346 
naturaleza de, 321-323 
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Multiplicación escalar, 841 
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Nivel de significancia, 108, 824, 834 
en presencia de minería de datos, 475-476 
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No respuesta, 27 
No significativo estadísticamente, 114 


Normal e independientemente distribuido 
(NID), 98 
Normalidad (supuesto 10), 233-234 
de distribución estocástica, 315, 318 
para perturbaciones, 98 
propiedades de los estimadores de MCO en 
condiciones de,100-101 
razones para usar, 99-100 
Normalidad asintótica, 831 
Normit, 568 
Nudo (valor del umbral conocido con anticipa- 
ción), 296 


O 


Oficina del Censo de EE.UU., 22, 901 
Omisión de variable relevante, 469, 471-473 
Operaciones matriciales, 840-843 
adición, 840-841 
inversión, 843 
multiplicación, 841-843 
multiplicación escalar, 841 
resta, 841 
trasposición, 843 
Operador de doble sumatoria (22), 801 
Operador de primeras diferencias, 417 
Operador de producto (IT), 802 
Operador de rezago, 744n 
Operador de sumatoria (2), 801 
Optimización directa, 529 
Orden, 838 


P 


Panel balanceado, 25, 593 
Panel corto, 593 
Panel desbalanceado, 25, 593 
Panel largo, 593 
Parámetro cointegrante, 762 
Parámetro de deriva, 743 
Parámetros, 3 
Parámetros incómodos, 596 
Paridad del poder adquisitivo (PPA), 139 
Parsimonia, 42 
Participación de la fuerza laboral (PFL), 51, 
541, 549-551, 872 
PED (ver Proceso estacionario en diferencias) 
Pendiente, 3, 37 
Perturbación estocástica, 40-42 
Perturbaciones: 
distribución de probabilidad de, 97-98 
no normalidad de, 544 
supuesto de no autocorrelación entre, 66-67 
varianzas heteroscedásticas de, 544-545 
PET (proceso estacionario en tendencia), 745 
PFL (ver Participación de la fuerza laboral) 
PGD (proceso de generación de datos), 738 
PIB (ver Producto interno bruto) 
Planteamiento de la hipótesis, 3 
Planteamiento de la teoría o hipótesis, 3 
Platicúrtica, 816 
Plim (probabilidad del límite), 681 
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PM (ver Promedio móvil) 
PMA (propensión marginal a ahorrar), 256 
PMC (ver Propensión marginal a consumir) 
PNB (producto nacional bruto), 2 
Población, 34, 802 
Polinomios ortogonales, 346 
Porcentajes, logaritmos y, 185-186 
Posesión de una cuenta de depósito, 587 
Posmultiplicada, 842 
Potencia: 
de la prueba, 122, 383n, 834, 835 
de la prueba estadística, 440n 
de las pruebas de raíz unitaria, 759 
PPA (paridad del poder adquisitivo), 139 
Precedencia, 653 
Precios del oro, 90 
Precisión, 69-71 
Precisión de los datos, 27 
Predicción (ver también Pronóstico) 
con regresión múltiple, 259 
formulación matricial, 861-862 
individual, 128-129, 146, 862 
media, 127-128, 145-146, 861-862 
varianza de la, 862 
Predicción de la clasificación de bonos, 551 
Predicción de la tasa de graduación, 584-585 
Premultiplicada, 842 
Preprueba, 476 
Principio de analogía, 86, 826 
Principio de inclusión, 490 
Principio MSE, 511 
Probabilidad, 802-803 
Probabilidad de cometer el error tipo I, 108n, 
121 
Problema de estimación, 823 
Problema de heterogeneidad, 23 
Problema de identificación, 671-672, 689-703 
definición, 692 
identificación exacta, 694-697 
notación y definiciones empleadas en, 
689-692 
sobreidentificación, 697-698 
subidentificación, 692-694 
Problema de raíz unitaria, 744 
Procesamiento masivo de datos numéricos, 475 
Proceso autorregresivo y de promedios móviles 
(ARMA), 776 
Proceso de generación de datos (PGD), 738 
Proceso de Poisson, 542 
Proceso de ruido blanco, 741 
Proceso estacionario en diferencias (PED), 
745,760 
Proceso estacionario en tendencia (PET), 745 
Proceso gaussiano de ruido blanco, 741 
Proceso iterativo, 529 
Proceso puramente aleatorio, 741 
Procesos estacionarios en tendencia, 761-762 
Procesos estocásticos, 740-744 
estacionarios, 740-741 
estacionarios en tendencia/estacionarios en 
diferencias, 745-746 
integrados, 746-747 
no estacionarios, 741-744 
raíz unitaria, 744 
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Procesos estocásticos estacionarios en diferen- 
cias (ED), 745-746 
Procesos estocásticos estacionarios en tenden- 
cia (ET), 745-746 
Procesos integrados, 746-747 
Producción con elasticidad constante de susti- 
tución (ECS), 10, 526 
Productividad, 89, 607-609, 621, 667 
Producto interno bruto (PIB), 5-7, 91, 738, 739 
Producto nacional bruto (PNB), 2 
Promedio móvil de orden q (PM(g)), 776 
Promedio ponderado rezagado de tiempo, 627 
Promedios móviles (PM), 438, 439, 776 
Promedios móviles de primer orden (PM(1)), 
776 
Promedios móviles de segundo orden (PM(2)), 
776 
Pronóstico fuera de la muestra, 491 
Pronóstico ji cuadrada, 496 
Pronósticos: 
ARIMA, 774-775 
como paso en la creación de modelos econo- 
métricos, 8 
dentro de la muestra o fuera de la muestra, 
491 
económicos, 773-775 
en la metodología BJ, 782-784 
modelos de regresión de ecuaciones simultá- 
neas, 774 
modelos de regresión uniecuacionales, 774 
suavizamiento exponencial, 774 
VAR, 775, 786-787 
Pronósticos dentro de la muestra, 491 
Propensión marginal a ahorrar (PMA), 256 
Propensión marginal a consumir (PMC), 3, 7, 
17, 81 
Propiedad asociativa, 843 
Propiedad conmutativa, 842 
Propiedad de invarianza, 830 
Propiedad de Slutsky, 830 
Propiedad reproductiva, 143 
Propiedades asintóticas, 73, 96, 828 
Propiedades de las muestras finitas, 73 
Propiedades de muestras grandes, 96, 828-831 
Propiedades de muestras pequeñas, 826-828 
Propiedades estadísticas, 59, 69 
Propiedades numéricas, de los estimadores, 59 
Propósitos de control, modelo usado para, 9 
Prueba Berenblutt-Webb, 445 
Prueba Breusch-Godfrey (BG), 438-440 
Prueba Breusch-Pagan (BP), 605 
Prueba Breusch-Pagan-Godfrey (BPG), 385- 
386, 389 
Prueba Chow, 256-259, 285-288, 299, 498-499 
Prueba d de Durbin-Watson, 434-438 
Prueba d modificada, 437 
Prueba de causalidad de Granger, 653-658 
Prueba de causalidad de Sims, 652n 
Prueba de causalidad de Wiener-Granger, 653n 
Prueba de correlación de orden de Spearman, 
380-382 
Prueba de heteroscedasticidad general de 
White, 386-389, 396, 398-399 


Prueba de hipótesis de dos colas, 113-114 
Prueba de igualdad, de dos coeficientes de re- 
gresión, 246-248 
Prueba de la razón de verosimilitud (RV), 259- 
260, 274-276 
Prueba de las rachas, 431-434, 892-893 
Prueba de normalidad Anderson-Darling, 131 
Prueba de raíz unitaria Phillips-Perron (PP), 
758 
Prueba de restricciones de igualdades lineales, 
248-254 
método de la prueba F, 249-254 
método de la prueba £, 249 
Prueba de significancia bilateral, 117 
Prueba de simultaneidad, 703-705 
Prueba del multiplicador de Lagrange (ML), 
259-260, 481-482 (ver también Prueba 
Breusch-Godfrey) 
Prueba Dickey-Fuller (DF), 755-757, 759, 893 
Prueba Dickey-Fuller aumentada (DFA), 755- 
758 
Prueba Dickey-Pantula, 759 
Prueba Engle-Granger (EG), 763-764 
Prueba Engle-Granger aumentada (EGA), 
763-764 
Prueba F: 
adición de un grupo de variables a, 246 
adición de variables nuevas a, 246 
con notación matricial, 861 
de la prueba de significancia general, 238-241 
de restricciones de igualdad lineal, 249-254 
pruebas de raíz unitaria de datos de series de 
tiempo, 758 
Prueba F general, 252-254, 861 
Prueba F incluyente, 488-489 
Prueba F no anidada, 488-489 
Prueba F restringida, 598, 758 
Prueba Geary (ver Prueba de las rachas) 
Prueba Glejser, 379-380, 396, 398 
Prueba Goldfeld-Quandt, 382-384, 389 
Prueba h de Durbin, 637-639 
Prueba Hausman, 603, 683, 703-704 
Prueba J, 490-492 
Prueba J de Davidson-MacKinnon, 490-492 
Prueba Jarque-Bera (JB), 131, 132, 819 
Prueba ji cuadrada, 118-119 
Prueba ji cuadrada de significancia, 119 
Prueba Koenker-Basset (KB), 388-389 
Prueba M de Durbin, 440 
Prueba MWD, 260-261 
Prueba Park, 378-379, 396-398 
Prueba RESET de Ramsey, 479-481 
Prueba residual recursiva, 259 
Prueba Sargan, 669-670 
Prueba £, 115-118, 249 
Prueba £ de Student, 755 
Prueba Wald, 259-260, 299n 
Prueba z, 836-837 
Pruebas de causalidad, 737 
Pruebas de errores de especificación, 474-482 
Pruebas de exogeneidad, 705 
Pruebas de hipótesis con intervalos de con- 
fianza, 113-115, 124, 831-836 


Pruebas de hipótesis de una cola, 115 
Pruebas de hipótesis, 113-124, 831-837 
aceptación o rechazo de la hipótesis, 119 
como paso en la creación de modelos econo- 
métricos, 7-8 
en la teoría clásica de inferencia estadística, 
97 
en regresión múltiple, 234-237, 259-260 
formación de hipótesis nula y alternativa, 
121 
hipótesis nula cero y regla práctica 2t, 120 
¡¿(subíndice), 21 
método de intervalos de confianza, 831-836 
método de intervalos de confianza para las, 
113-115 
método de la prueba de significancia, 
115-119, 836-837 
nivel exacto de significancia, 122-123 
selección del método para las, 124 
selección del nivel de significancia, 121-122 
significancia estadística y práctica, 123-124 
sobre coeficientes de regresión individuales 
en notación matricial, 859-860 
Pruebas de hipótesis no anidadas, 488-492 
método de discernimiento, 488-492 
método de discriminación, 488 
prueba F no anidada, 488-489 
prueba J de Davidson-MacKinnon, 490-492 
Pruebas de normalidad, 130-132 
gráfico de probabilidad normal, 131, 132 
histograma de residuos, 130-131 
prueba Jarque-Bera, 131, 132 
Pruebas de raíz unitaria: 
crítica, 759-760 
datos de series de tiempo, 754-760 
Phillips-Perron, 758 
prueba de cambios estructurales, 758-759 
prueba Dickey-Fuller aumentada, 757-758 
prueba F, 758 
valores críticos t y F de Dickey-Fuller 1% y 
5% para, 893 
Pruebas de significancia, 115-119, 836-837 
ANOVA en notación matricial, 860-861 
de una cola, 117, 118 
intervalos de confianza frente a, 124 
prueba £, 115-118 
prueba x?, 118-119 
Pruebas de significancia general: 
ANOVA, 238-240 
contribución incremental de la variable 
explicativa, 243-246 
en regresión múltiple, 237-246 
en términos de R?, 242-243 
individual o conjunta, 241 
prueba F, 240-241 
relación entre R? y F, 241-242 
Pruebas no paramétricas, 432n 
Psicología, 622 
Publicaciones de la CIA, 901 
Punto de influencia, 497 
Puntos muestrales, 802 


R? ajustada, 493 
R? simple, 150 
Rango de matriz, 845-846 
Razón de probabilidades, 554 
Razón de von Neumann, 454 
Razón inversa de Mills, 575 
Razones £, 330, 331, 337 
RDP (ver Rezago distribuido polinomial) 
Realización de posibilidades, 740 
Rechazo de hipótesis, 119 
Recursos en la World Wide Web, 900-901 
Recursos estadísticos en la Web/Economía, 
901 
Recursos para economistas en internet, 900 
Reducción del determinante, 844 
Región de aceptación, 116, 833 
Región de rechazo, 116, 833 
Regiones críticas, 116, 833 
Regla de multiplicación de renglón por co- 
lumna, 841 
Regla práctica 2t, 120 
Regla práctica de Klien, 339 
Regresada, 21 
“Regresión a la mediocridad”, 15 
Regresión: 
a través del origen, 147-153 
origen histórico del término, 15 
sobre variables estandarizadas, 157-159 
Regresión agrupada, 256 
Regresión al tanteo, 475 
Regresión auxiliar, 339 
Regresión bivariada (ver Análisis de regresión 
con dos variables) 
Regresión cointegrante, 762 
Regresión con variables estandarizadas, 873 
Regresión de corte transversal, 270 
Regresión de series de tiempo, 270 
Regresión en cadena, 346 
Regresión espuria, 737, 747-748 
Regresión histórica, 126 
Regresión lineal por segmentos, 295—297 
Regresión múltiple: 
coeficientes de correlación parcial, 213-215 
estimación de máxima verosimilitud, 230 
lineal frente a modelos log-lineales, 260-261 
modelo con tres variables 
coeficiente de correlación múltiple, 198 
coeficiente de determinación múltiple, 
196-197 
coeficientes de regresión parcial, 191-192 
ejemplo, 198-200 
estimación de los coeficientes de regresión 
parcial, 192-196 
función de producción Cobb-Douglas, 
207-209 
interpretación de la ecuación de regresión, 
191 
notación y supuestos, 188-190 
R? ajustada, 201-207 
variables estandarizadas, regresión sobre, 
199-200 


modelos de regresión polinomial, 210-213 
predicción con, 259 
problema de estimación, 188-215 
problema de inferencia, 233-262 
prueba de estabilidad estructural o paramé- 
trica, 254-259 
prueba de igualdad de dos coeficientes de 
regresión, 246-248 
prueba de la razón de verosimilitud, 274-276 
pruebas de hipótesis 
con pruebas de RV/W/MV, 259-260 
formas de, 234-235 
sobre coeficientes de regresión individua- 
les, 235-237 
pruebas de restricciones de igualdad lineal, 
248-254 
método de la prueba F, 249-254 
método de la prueba /, 249 
pruebas de significancia general, 237-246 
ANOVA, 238-240 
contribución incremental de la variable 
explicativa, 243-246 
en términos de R?, 242-243 
prueba F, 238-241 
relación entre R? y F, 241-242 
sesgo de especificación en, 200-201 
supuesto de normalidad, 233-234 
Regresión poblacional (RP), 37 
Regresión polinomial, 210-213, 346 
Regresión por pasos hacia atrás, 354 
Regresión por pasos hacia delante, 354 
Regresión universal, ley de, 15 
Regresiones coincidentes, 285, 286 
Regresiones concurrentes, 285, 286 
Regresiones disímiles, 285, 286 
Regresiones paralelas, 285, 286 
Regresiones semilogarítmicas, 297-298, 314 
Regresora, 21 
Regresoras débilmente exógenas, 468 
Regresoras estrictamente exógenas, 468 
Regresoras fijas, 63, 316-317, 510, 511 
Relación determinista, 4, 19 
Relación exacta, 4 
Relación lineal exacta, 853 
Relaciones estadísticas, 19, 20 
Remuestreo, 510 
Residuos, 44, 445-446, 477 
Residuos estandarizados, 430, 430n, 431 
Residuos recursivos, 498 
Resta de matrices, 841 
Restricciones de punto final, 652 
Resultados de computadora, 894-899 
EViews, 894-896 
Excel, 897-898 
MINITAB, 896-897 
STATA, 898, 899 
Reversión media, 741 
Rezago distribuido polinomial (RDP), 645-652 
Rezagos: 
duración, 753 
en economía, 618-622 
razones de, 622-623 
y autocorrelación, 416-417 
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RP (regresión poblacional), 37 
Rupturas estructurales, 758 


S 


Salarios y exportaciones en la industria manu- 
facturera, 49 
SCE (ver Suma de cuadrados explicada) 
SCR (ver Suma de cuadrados de residuos) 
SCRypr (ver Suma de cuadrados de residuos no 
restringida) 
SCRp (ver Suma de cuadrados de residuos 
restringida) 
Semielasticidad, 163 
Serie de tiempo del logaritmo del PIB (LPIB), 
751-752 
Serie de tiempo determinista, 745 
Series de tiempo, 290 
Series de tiempo cointegradas, 762-765 
Series de tiempo de caminata aleatoria, 751 
Series de tiempo económicas de Estados Uni- 
dos, 738-739 
Series de tiempo estacionarias, 737 
Series de tiempo estocásticas, 745 
Series de tiempo integradas, 747 
Series de tiempo no estacionarias, 741, 760- 
762 
Series de tiempo sin tendencia, 761 
Sesgo (ver también Insesgamiento) 
autoselección, 499 
ecuaciones simultáneas, 679-683 
en estimadores indirectos de mínimos 
cuadrados, 735 
errores de medición, 469 
especificación del modelo, 467 
especificación por variable excluida, 414- 
415 
preprueba, 206n 
Sesgo de especificación, 64 
en regresión múltiple, 200-201 
forma funcional incorrecta, 416 
supuesto relacionado con, 189, 367 
variable excluida, 414-415 
y multicolinealidad, 344 
Sesgo en las ecuaciones simultáneas, 679-683 
Sesgo por errores de medición, 469 
Significancia estadística: 
de los coeficientes de autocorrelación, 
753-754 
práctica frente a, 123-124 
Significancia práctica, estadística frente a, 
123-124 
Sobreajuste de un modelo, 473-474 
Sobrediferenciación, 761 
Sobreidentificación, 697-698 
Social Security Administration, 901 
Software de regresión, 11-12 
Sondeo de datos, 475 
STATA, 898, 899 
STC (suma total de cuadrados), 74 
Suavizamiento exponencial simple, 774 
Subajuste de un modelo, 471-473 
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Subdiferenciación, 761 
Subidentificación, 692-694 
Submatriz, 839 
Subpredicción, 8 
Sucesos, 802 
Sucesos exhaustivos, 802 
Sucesos mutuamente excluyentes, 802 
Suma de cuadrados de los errores, 528n 
Suma de cuadrados de residuos (SCR), 70, 75 
Suma de cuadrados de residuos no restringida 
(SCRyr), 257-258 
Suma de cuadrados de residuos restringida 
(SCRg), 256-258 
Suma de cuadrados explicada (SCE), 74-75 
Suma de cuadrados total (SCT), 74 
Suma de matrices, 840-841 
Supresión de tendencias, 745 
Supuestos de MCRL, 61-69, 189, 315-319 
distribución normal (supuesto 10), 315, 318 
en notación matricial, 851-853 
especificación correcta (supuesto 9), 467 
homoscedasticidad (supuesto 4), 64-66 
independencia de los valores con respecto al 
término de error (supuesto 2), 62-63 
lineal en parámetros (supuesto 1), 62 
naturaleza de las variables (supuesto 7), 68 
no autocorrelación entre perturbaciones 
(supuesto 5), 66-67 
no colinealidad exacta (supuesto 8), 189 
no sesgo de especificación (supuesto 9), 189, 
367 
observaciones y parámetros (supuesto 6), 
67-68 
valor medio cero (supuesto 3), 63-64, 317 
valores fijos (supuesto 2), 62-63, 316-317 
violación de, 85 


T 


T (número total de observaciones), 21 
r(subíndice), 21 
Tabla ANOVA, 125, 126 
Tablas estadísticas, 878-893 
áreas bajo distribución normal estandari- 
zada, 878 
estadístico d de Durbin-Watson, 888-891 
puntos porcentuales de distribución t, 879 
puntos porcentuales superiores de la 
distribución F, 880-885 
puntos porcentuales superiores de la 
distribución x?, 886-887 
valores críticos de las rachas en la prueba de 
rachas, 892-893 
valores críticos t y F de Dickey-Fuller para 
pruebas de raíz unitaria al 1% y 5%, 
893 
Tamaño: 
de la muestra, 835 
de la prueba estadística, 108n 
de las pruebas de raíz unitaria, 759 
Tarjetas de débito, 552, 565-566 
Tasa de crecimiento compuesta, 164 


Tasa de crecimiento instantánea, 164 
Tasa de crecimiento instantánea vs. compuesta, 
164 
Tasa de crecimiento porcentual, 160n 
Tasa de desempleo de civiles (CUNR), 894 
Tasa de inflación de Estados Unidos, 797-798 
Tasa de participación de la fuerza laboral civil 
(TPFLO), 894, 895, 897-899 
Tasa de riesgo, 575 
Tasas de interés: 
e inversiones y ventas, 666 
y dinero, 655-656 
y dinero, PIB, IPC, 709 
y la Reserva Federal, 642-643 
TCL (ver Teorema central del límite) 
Técnica de componentes principales, 346 
Técnica de estimación SURE de Zellner, 
714n 
Técnica de variables dicótomas con intercepto 
diferencial, 597 
Tecnología, 622 
Tendencia creciente, 164 
Tendencia descendente, 164 
Tendencia determinista, 745 
Tendencia determinista con componente 
estacionario AR(1), 746 
Tendencia estocástica, 742, 745 
Tendencias, 22 
Teorema central del límite (TCL), 99, 509, 818 
Teorema de Frisch-Waugh, 295 
Teorema de Gauss-Markov, 71-73 
Teorema de Kruskal, 376n, 422 
Teorema de representación de Granger, 764 
Teorema de Taylor, 537-538 
Teorema de Weierstrass, 645 
Teoría clásica de inferencia estadística, 97 
Teoría de muestras grandes, 510 
Teoría del análisis de costos, 148, 149 
Teoría económica, 2 
Término de error, 4, 62-63 
Término de error estocástico, 40, 174-175, 
486-487 
Término de interacción, 263, 549 
Término de perturbación, 4 
Término idiosincrásico, 603 
Términos adelantados, 667 
TGARCH (umbral GARCH), 799 
Tipo de cuenta, 576 
Tolerancia, 340 
TPFLC (ver Tasa de participación de la fuerza 
laboral civil) 
Tradición bayesiana, 10 
Trampa de la variable dicótoma, 281, 597 
Transformación Box-Cox, 534 
Transformación de datos, 417 
Transformación de la población, 534 
Transformación de raíz cuadrada, 393 
Transformación de razón, 345 
Transformación de variables, 344-345 
Transformación Koyck, 626 
Transformación Prais-Winsten, 443 
Trasposición, 839 
Trasposición de matrices, 843 


U 


UE (ver Utilidades empresariales) 
Umbral GARCH (TGARCH), 799 
Unidades de medición, 157 
Universidad de Michigan, 22 

Utilidades empresariales (UE), 738, 739 


V 


Vaguedad de la teoría, 41 
Validez de los instrumentos, 669-670 
Valor esperado, 34n, 35, 36, 808-810 
Valor esperado condicional, 35 
Valor esperado incondicional, 35 
Valor estimado, 5n 
Valor medio, 34n 
Valor medio cero de u; (supuesto 3), 63-64, 317 
Valor p, 835 
Valores atípicos, 367, 496-498 
Valores críticos, 108, 116, 833 
Valores críticos de rachas en la tabla de prueba 
de rachas, 892-893 
Valores críticos de x?, 112 
Valores críticos Leamer-Schwarz, 836 
Valores críticos t, 115 
Valores críticos t y F de Dickey-Fuller para 
pruebas de raíz unitaria, 893 
Valores fijos (supuesto 2), 62-63, 316-317 
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